Guía de auto-aprendizaje en SDMX n. 4 Libro del estudiante Definición de estructura de datos Guía de auto-aprendizaje en SDMX Autor Libro del estudiante n. 4 - Definición de estructura de datos Eurostat, Dirección A: Cooperación en el Sistema Estadístico Europeo; cooperación internacional; recursos Unidad A6: Cooperación estadística Última actualización Noviembre 2012 Versión 1.0 1/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos TABLA DE CONTENIDOS 1 OBJETIVO DEL LIBRO ..............................................................................................................................3 2 MODELO DE INFORMACIÓN SDMX (SDMX-IM): ESTRUCTURAS DE DATOS...........................4 3 4 2.1 OBJETIVO DE ESTE CAPÍTULO ......................................................................................................................4 2.2 MODELO DE INFORMACIÓN SDMX (SDMX-IM) Y DIRECTRICES ORIENTADAS AL CONTENIDO ..................4 2.3 OBTENER UNA ESTRUCTURA DE DATOS PARA MIS DATOS ..........................................................................4 2.3.1 Desde un número hasta datos estadísticos .......................................................................................4 2.3.2 De una tabla a la estructura de datos ..............................................................................................5 PASO A PASO: CREACIÓN DE UNA DEFINICIÓN DE ESTRUCTURA DE DATOS ......................7 3.1 OBJETIVO DE ESTE CAPÍTULO ......................................................................................................................7 3.2 DATOS EN FORMATO DE SERIE TEMPORAL (TIME SERIES) .........................................................................10 3.3 DATOS EN FORMATO TRANSVERSAL (CROSS-SECTIONAL) ........................................................................11 3.4 CONSTRUCCIÓN DE UNA DEFINICIÓN DE ESTRUCTURA DE DATOS PARA DATOS DE SERIE TEMPORAL ........13 3.4.1 Conceptos .......................................................................................................................................13 3.4.2 Listas de códigos (Code Lists) ........................................................................................................15 3.4.3 Dimensiones, atributos, grupos y medidas .....................................................................................17 3.5 DEFINICIONES ADICIONALES PARA LA REPRESENTACIÓN DE DATOS TRANSVERSALES .............................. 19 3.6 CONSTRUCCIÓN DE LA ESTRUCTURA DE DATOS SDMX-ML ....................................................................21 3.7 FORMATO TRANSVERSAL ESPECIAL (CENSO) ...........................................................................................23 CREACIÓN PASO A PASO DE LA DSD PARA EL EJEMPLO DE TURISMO ................................ 26 4.1 DATA STRUCTURE WIZARD (DSW)..........................................................................................................26 4.2 CREACIÓN DE UNA DSD DE TURISMO CON EL DSW .................................................................................27 4.2.1 Definición de listas de códigos .......................................................................................................27 4.2.2 Definición de esquema de concepto (Concept Scheme) .................................................................29 4.2.3 Definición de una DSD...................................................................................................................32 4.2.4 Exportar DSD .................................................................................................................................40 5 GUÍA DE IMPLEMENTACIÓN DE MENSAJES ...................................................................................42 6 GLOSARIO ..................................................................................................................................................44 2/45 Guía de auto-aprendizaje en SDMX 1 Libro del estudiante n. 4 - Definición de estructura de datos Objetivo del libro Este libro tiene como objetivo proporcionar una comprensión y visión completas sobre las definiciones de estructuras de datos (DSD - Data Structure Definitions) y la forma de crear un artefacto DSD a partir de un ejemplo de tabla de datos. Esto incluye: La definición de los componentes del DSD; La creación paso a paso de artefactos (artefact) DSD; Mensajes de estructuras SDMX-ML (SDMX-ML Structure Message); La guía de implementación de mensajes (MIG - Message Implementation Guide). Al final de este libro, el usuario deberá ser capaz de crear un artefacto DSD y entender cómo funciona, y también crearlo a partir de una tabla de datos estadísticos. El libro del estudiante es el cuarto de una serie de 8 libros del estudiante (ver Tabla 1- Libros del estudiante sobre SDMX) que juntos proporcionan una información completa para el dominio de SDMX, con una atención particular en el modelo de datos. Ref. Título [01] Introducción a SDMX [02] El modelo de información SDMX [03] Mensajes SDMX-ML [04] Definición de estructura de datos [05] Definición de estructura de metadatos [06] Tecnologías basadas en XML usadas en SDMX [07] Arquitecturas SDMX de método pull para compartir datos – Parte 1 [08] Arquitecturas SDMX de método pull para compartir datos – Parte 2 Tabla 1 – Libros del estudiante sobre SDMX Prerrequisitos Se recomienda con fuerza la lectura del primer libro del estudiante para obtener una visión global del modelo de información SDMX y los conceptos básicos de las estructuras de datos y metadatos. El estudio del segundo libro del estudiante podría ayudar a comprender la aplicación detallada de los objetos del modelo de información utilizados en las definiciones de estructuras de datos. 3/45 Guía de auto-aprendizaje en SDMX 2 Libro del estudiante n. 4 - Definición de estructura de datos Modelo de información SDMX (SDMX-IM): estructuras de datos1 2.1 Objetivo de este capítulo El objetivo de este capítulo es resumir la introducción que se hace de SDMX-IM en el libro “Introducción a SDMX”. Se presentará la nomenclatura usada en las definiciones de estructuras de datos (Data Structure Definitions) y se explicarán las diferentes partes que conforman un ejemplo de definición de estructura de datos SDMX (SDMX Data Structure Definition). 2.2 Modelo de información SDMX (SDMX-IM) y directrices orientadas al contenido El modelo de información SDMX (SDMX Information Model)) proporciona una forma de modelar datos estadísticos, metadatos estructurales, metadatos de referencia (reference metadata) y procesos de intercambio de datos mediante la representación de conceptos, relaciones, restricciones, reglas, y operaciones que especifican la semántica de datos de un dominio estadístico dado. Las directrices orientadas al contenido (Content Oriented Guidelines) es un conjunto de propuestas para la armonización de la aplicación del modelo de información SDMX (SDMX Information Model), con el fin de proporcionar soluciones concretas para la interoperabilidad en el intercambio de datos y metadatos entre organizaciones. 2.3 Obtener una estructura de datos para mis datos 2.3.1 Desde un número hasta datos estadísticos Los datos estadísticos se representan mediante números, tales como: 11353511 Si solo nos fijamos en el número, no tendremos ninguna pista sobre su significado. Como dato estadístico, puede medir un fenómeno concreto (también conocido como “observación”). Para identificar lo esencial de esta medición debemos encontrar las respuestas a las siguientes preguntas: ¿Cuál es el tema? ¿Qué unidades son las que mide? ¿A qué país o región geográfica se aplica? (si es que la hubiera) ¿Cuándo se realizó la medición y con qué frecuencia se midió? 1 El modelo de información SMDX (SDMX Information Model), las directrices orientadas al contenido (Content Oriented Guidelines) y las estructuras de datos se presentan en el primer libro “Introducción a SDMX”. El modelo de información SMDX se explica con más detalle en el libro del estudiante n. 2 "El modelo de información SDMX”. 4/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Cada pregunta se refiere a una idea o “concepto” usado para describir datos. Así pues, las preguntas de arriba nos llevan a hablar de conceptos descriptores como el tema estadístico, unidad de medida, país, fecha y frecuencia. Conforme damos respuesta a las preguntas anteriores, los datos van cobrando sentido: El tema es “población total”; La unidad de medida es “número de personas”; El país es “Bélgica”; La fecha es “1 de enero de 2001” y la frecuencia es “anual”. Este ejemplo muestra cómo definir datos estadísticos con un conjunto de descriptores de conceptos. Siguiendo este ejemplo, una definición de estructura de datos (DSD - Data Structure Definition) puede definirse de la siguiente forma: Una DSD (familia clave - Key Family) especifica un conjunto de conceptos descriptores (conceptos que describen e identifican a un conjunto de datos (Dataset)). Nos dice qué conceptos son dimensiones (identificación y descripción), y qué conceptos son atributos (solamente descripción), y nos aporta un nivel de asociación para cada uno de estos conceptos basados en la estructura de empaquetado (conjunto de datos, grupo, serie/sección, observación) así como su estado (obligatorio contra condicional). También especifica qué listas de códigos proporcionan posibles valores a las dimensiones, como también los posibles valores para los atributos, ya sean listas de códigos o campos de texto libre. Puede usarse una definición de estructura de datos para describir datos de serie temporal y tablas de datos transversales (Cross-Sectional) y multidimensionales.2 2.3.2 De una tabla a la estructura de datos Los datos estadísticos presentados en tablas pueden transformarse y obtener así una estructura de datos SDMX. Aquí se presenta un ejemplo de datos mensuales en la tabla 2. 2 Se proporcionan ejemplos de serie temporal (Time Series), y tablas de datos transversales (Cross-Sectional) y multidimensionales en el libro del estudiante n. 1 Introducción a SDMX. 5/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Exportaciones e Importaciones de Madera del país “BÉLGICA” al mes con el país “FRANCIA” ajustadas por temporadas. (En millones de Euros). Año 2008. Facturas Pagos M:BE:3:300:FR M:BE:2:300:FR Enero 130 100 Febrero 120 110 Marzo 145 105 Abril 150 120 … … … DIMENSIONES CLAVE Tabla 2 - Ejemplo: datos estadísticos en tabla con formato de serie temporal (Time Series) De la tabla 2 se pueden obtener los siguientes conceptos estadísticos/descriptores con sus correspondientes valores: 1. Frecuencia, con el valor: M de mensual; 2. País que informa, con el valor: BE “Bélgica”; 3. Sentido del flujo, o tipo de transacción con los valores: 2 para crédito, recepciones o bienes (exportaciones), 3 para débito, pagos o bienes (importaciones); 4. Tema/variable con el siguiente valor: 300 para ingresos; 5. País asociado/Empresa: FR de FRANCIA; 6. Periodo de tiempo, que define el periodo de observación para la serie temporal (Time Series); 7. Formato de tiempo, que proporciona el formato para la dimensión (Dimension) temporal descrita; 8. Unidad de medida con diferentes valores, por ejemplo, EUR – Euros; 9. Unidad múltiplo, en el ejemplo el múltiplo es millones. Dado el orden que se muestra arriba, la clave para esta serie de datos tendría la forma M:BE:3:300:FR (los dos puntos “:” separan los valores de dimensión (Dimension)). Esta sería la correspondencia: ingresos (=300) de importaciones (3=débito/pagos/bienes) mensuales (=M) del país/ empresa o área que informa (=Bélgica) al área asociada (=Francia). En relación con los conceptos, el siguiente paso es distinguir entre dimensiones (Dimensions), atributos (Attributes) y medidas (Measures). Las dimensiones clave (Key Dimensions) contribuyen a la identificación concreta de una serie de datos o (más globalmente) de un conjunto de datos (Dataset). Éstas se vinculan a nivel de serie. Los atributos (Atributes) proporcionan información adicional y pueden vincularse a diferentes niveles. Las medidas contienen el valor observado durante un período de tiempo (datos de serie temporal (Time Series)). Los conceptos dimensión de tiempo (período de tiempo), que no forman parte de la clave, y el atributo de formato de tiempo, completan las definiciones que son necesarias. La serie temporal en el ejemplo se expresa en millones de euros. Los conceptos “unidad” y “unidad múltiplo” no contribuyen a las identificaciones de las series; solamente proporcionan información adicional a los datos de las tablas. En consecuencia, actúan como atributos que especifican descripción adicional de los datos. 6/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Los conceptos que van del 1 al 5 son obligatorios para lograr un clara identificación de los datos de serie temporal. Se consideran dimensiones (Dimensions) y forman la clave de la estructura de datos (tal como se ha mostrado más arriba). Se proporciona una definición más formal de una muestra de estructura de datos en la tabla 3. Ha de tenerse en cuenta que en este ejemplo concreto solo se usan dos conceptos específicos de dominio estadístico (tema de balance de pagos, sentido del flujo/tipo de transacción). La mayoría del resto de conceptos son en realidad conceptos de dominio transversal (Cross Domain) SDMX, provenientes de las directrices orientadas al contenido SDMX (COG Content Oriented Guidelines)3, que se deberían aplicar siempre que sea posible. Pos. en clave Dimensión o Atributo Nombre del concepto Identificador Nivel de asociación Lista de códigos 1 Dimensión Frecuencia FREQ CL_FREQ 2 Dimensión Área de informe/referencia REF_AREA CL_AREA 3 Dimensión Tipo de datos para estadísticas de balance de pagos DATA_TYPE_BOP CL_DATA_TYP E_BOP 4 Dimensión Tema de balance de pagos BOP_ITEM CL_ BOP_ITEM 5 Dimensión Área asociada COUNT_AREA CL_AREA Dimensión Período de tiempo TIME_PERIOD Atributo Formato de tiempo TIME_FORMAT Serie CL_TIME_FOR MAT Atributo Unidad de medida UNIT Serie CL_UNIT Atributo Unidad múltiplo UNIT_MULT Serie CL_UNIT_MUL T Tabla 3 – Estructura de muestra de datos 3 Paso a paso: creación de una definición de estructura de datos 3.1 Objetivo de este capítulo El objetivo de este capítulo es el de seguir los pasos necesarios para la creación de una definición de estructura de datos (DSD - Data Structure Definition) a partir de tablas estadísticas de representaciones de datos transversales (Cross-Sectional) y de serie temporal (Time Series), así como introducir los mensajes de estructuras de datos SDMX-ML. Esto incluye la creación de artefactos unidos al DSD y obtener así un conocimiento completo de la estructura. Los pasos a seguir son los siguientes: 3 La COG (Content Oriented Guidelines) se trató en el primer libro - Introducción a SDMX. 7/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos 1. Mostrar la diferencia entre datos de serie temporal (TS - Time Series) y datos transversales (CS - Cross-Sectional). 2. Construir la definición de estructura de datos (Data Structure Definition): Definir todos los conceptos relacionados con los datos; Identificar qué conceptos son dimensiones (Dimensions) y cuáles son atributos (Attributes); Declarar las medidas (Measures) y los valores que se observan; Adjuntar o construir listas de códigos (Code Lists). Los principales pasos para construir un DSD se establecen de la siguiente forma: Dibujo 1 – Esquema de los pasos de una definición de estructura de datos (Data Structure Definition) Ejemplo: El ejemplo estadístico para explicar la representación de datos transversales (CrossSectional) y de serie temporal (Time Series) se ha tomado del dominio de turismo. Se refiere al número de establecimientos turísticos de distintos países (AT, ES, IT, FR) y continúa el ejemplo mostrado en el libro del estudiante n. 1 “Introducción a SDMX”. El Dibujo 2 presenta una ilustración gráfica de la diferencia entre los dos formatos, datos de serie temporal (Time Series) y transversal (Cross-Sectional): 8/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Dibujo 2 – Cubo estadístico que ilustra cortes de datos TS (Time Series) y CS (Cross-Sectional) Para el ejemplo dado, la construcción del DSD se ha basado en datos previos ya almacenados en tablas estadísticas (u otros medios como bases de datos o ficheros de datos). Así pues, la estructura de los datos ya se predefine en el intercambio de datos, donde los conceptos estadísticos ya se han definido suficientemente en el pasado. Las propiedades de cada concepto y las características de sus valores pueden obtenerse mediante el estudio del conjunto disponible de datos recogidos. En cualquier caso, se debería considerar el rediseño hacia SDMX como una oportunidad de validar y actualizar el diseño previo de la estructura de datos. La reducción de una tabla estadística a un modelo común de datos para el intercambio de datos podría contribuir a obtener una visión más clara de cualquier clase de nueva estructura. En este libro, tal proceso de rediseño no se trata, pero se trata de la transferencia de datos individuales que se presentan en las tablas estadísticas con sus estructuras subyacentes (conceptos (Concepts), listas de códigos (Code Lists), dimensiones (Dimensions), atributos (Attributes) y medidas (Measures)) con respecto a la correspondiente definición de estructura de datos SDMX (SDMX Data Structure Definition). 9/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos 3.2 Datos en formato de serie temporal (Time Series) La tabla estadística incluye la información de cabecera, como el título, número de tabla, los datos relativos a turismo y la fecha de extracción. Además, se presentan conceptos estadísticos, que normalmente no son visibles en filas y columnas de la propia tabla extraída. Empezando por el ejemplo de serie temporal (Time Series), la tabla 4, que se encuentra más abajo, muestra los datos estadísticos con respecto a periodos de observación anuales. Para esta tabla solo nos hemos fijado en una única entidad (FR = Francia) geográfica (GEO) para el desarrollo del número de tipos de establecimientos turísticos a lo largo de un período específico. Número de establecimientos turísticos – TS (serie temporal) FREQ: A – Anual GEO: FR – Francia TOUR_INDICATOR: A001 – Establecimientos UNIT: NUM – Número Tema A100 B010 B020 Hoteles y similares Campings de turistas Residencias vacacionales 2002A00 18768 8354 1934 2003A00 18617 8331 1968 2004A00 18598 8289 2251 2005A00 18689 8174 2329 2006A00 18361 8138 2325 2007A00 18135 8052 2406 2008A00 17970 7981 2537 2009A00 17723 7923 2964 Tiempo Tabla 4 – Representación de serie temporal (Time Series) 10/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos 3.3 Datos en formato transversal (Cross-Sectional) Número de establecimientos turísticos – CS (transversal) TIEMPO: 2007A00 TOUR_INDICATOR: A001 – Establecimientos UNIT: NUM – Número Indicador País A100 B010 B020 Hoteles y similares Campings de turistas Residencias vacacionales AT 14204 540 3388 ES 17827 1220 4843 FR 18135 8052 2406 IT 34058 2587 61810 Tabla 5 – Ejemplo transversal (Cross-Sectional) La organización de datos transversales (Cross-Sectional) se usa para el intercambio de datos con más de un tipo de observación dentro de un conjunto de datos (Dataset). Esto significa que está indicado para situaciones donde los datos estadísticos consisten en múltiples observaciones en un momento concreto de tiempo, o para cada combinación de miembros de dimensión (Dimension) en la tabla multidimensional. Un ejemplo de otro dominio estadístico son las estadísticas de comercio exterior, donde para una combinación de país que informa, país asociado, producto básico y periodo de tiempo pueden haber hasta tres observaciones: valor, peso y/o cantidad. Comercio Exterior (Ejemplo no real) TIEMPO: 2007M12 PAIS QUE INFORMA DE - Alemania PRODUCTO: Cubiertas para tejados FLUJO: Importación Indicador PESO VALOR CANTIDAD Socio en 100KG en EUROS en m3 CHEQUIA 44471 577197 14843 FRANCIA 23521 451799 8206 POLONIA 51391 895943 17810 Tabla 6 – Comercio exterior – CS (cross-sectional) En el ejemplo transversal (Cross-Sectional) de la tabla 5, los datos se muestran con respecto a un año concreto de observación: el año 2007. La tabla ilustra un número de entidades (países: AT, ES, FR, IT) geográficas (GEO), donde para cada una de ellas se observan tres fenómenos (tipos de establecimientos turísticos: hoteles y similares, campings de turistas y residencias 11/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos vacacionales). Estas observaciones se refieren solo al año 2007, subrayando así la diferencia principal con los datos de serie temporal (Time Series) donde un fenómeno se mide a lo largo de un período de tiempo (ej: observaciones anuales desde el 2002 al 2009). En cualquier caso, el ejemplo transversal (Cross-Sectional) se refiere a los mismos indicadores estadísticos y datos que el en el ejemplo basado en serie temporal (Time Series). Por tanto, los conceptos para la estructura de serie temporal (Time Series) se mantienen, pero la definición DSD ha de incluir especificaciones adicionales para el formato transversal (Cross-Sectional). 12/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos 3.4 Construcción de una definición de estructura de datos para datos de serie temporal Primeramente nos centramos en las definiciones de la organización de los datos de serie temporal (Time Series), aunque pueda resultar obvio durante este proceso que estas definiciones son válidas para ambos, la organización de datos TS (Time Series) y CS (CrossSectional). 3.4.1 Conceptos Al entrar en los detalles de los ejemplos mostrados en las tablas 4 y 5, el primer paso a realizar es especificar los conceptos, los cuales comprenden los datos subyacentes de la tabla estadística. Estos se usan para identificar y describir aún más los datos estadísticos y son, por tanto, indispensables para la transformación de números puros en información estadística. La lista de conceptos a definir es válida para representaciones, como la ‘Presentación de serie temporal (Time Series) de la tabla 4’ y la ‘Presentación transversal (Cross-Sectional) en la tabla 5’. Todos los conceptos que se usaron para construir las respectivas definiciones de estructuras de datos (Data Structure Definitions) para los ejemplos se enumerarán finalmente en la sección de concepto del fichero de estructura SDMX-ML en el dibujo 3 de abajo: ID CONCEPTO ACTIVITY_TO AT COUNTRY ES FR FREQ INDIC_TO IT OBS_STATUS OBS_VALUE TIME_FOMAT TIME_PERIOD UNIT NOMBRE Actividad turística Austria País turístico España Francia Frecuencia Indicador de turismo Italia Estado de la observación Valor de la observación Formato de tiempo Período de tiempo Unidad ESQUEMA DE CONCEPTO ID VERSIÓN AGENCIA TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT TOUR_CONCEPTS 1.0 ESTAT Dibujo 3 – Sección de concepto de la guía de implementación de mensajes (MIG - Message Implementation Guide) En el dibujo 3 de arriba se puede observar que los conceptos del tema estadístico se reúnen en un esquema de concepto (Concept Scheme) = TOUR_concepts’, el cual está identificado por su ID ‘TOUR_concepts’, el ID de la agencia encargada ‘ESTAT’ y el número de versión. Estos elementos y los conceptos contenidos han de codificarse, por ejemplo, en el “Data Structure Wizard” (DSW), que es una herramienta para construir una DSD SDMX. Los conceptos son identificados mediante su ID (por ejemplo "TOUR_INDICATOR") y pueden contener información sobre listas de códigos (CL_TOUR_INDICAT) que proporcionan los valores para el respectivo concepto y contienen una descripción dependiente del lenguaje (comparar con el dibujo 3). 13/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Los conceptos que han de definirse en el ejemplo son estos: FREQUENCY; la frecuencia de los datos es “anual”. El valor “a = anual” para este concepto se saca de la lista de códigos (Code List) de frecuencia (CL_FREQ); COUNTRY con los valores (por ejemplo “FR” = Francia) proporcionados por una lista de códigos (Code List) transversal de países ISO (CL_COUNTRY); TOURISM INDICATOR: sus valores se toman de una lista de códigos (Code List) de un dominio específico (CL_TOUR_INDICAT) - valor “A001” = Establecimientos; TOURISM ACTIVITY: los valores se toman también de una lista de códigos (Code List) de un dominio específico (CL_TOUR_ACTIVITY) - valor “A100” = Hoteles y similares; TIME PERIOD, que asigna un período de tiempo para la serie temporal (Time Series) observada; TIME FORMAT, que representa datos anuales unidos a una lista de códigos (Code List) de un dominio específico (CL_TIME_FORMAT) para sus valores; UNIT, con el valor “número” proveniente de la lista de códigos (Code List) de unidad (CL_UNIT); OBSERVATION VALUE, que representa los valores de los datos estadísticos medidos; OBSERVATION STATUS, que proporciona información sobre el estado de un valor específico de observación (por ejemplo: “f” = forecasted data (datos previstos) o “p” = provisional data (datos provisionales)). La vinculación de los conceptos con la tabla estadística (en formato TS) se ilustra en el dibujo 4 a continuación: 14/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Dibujo 4 – Conceptos vinculados a la tabla estadística TS (Time Series) 3.4.2 Listas de códigos (Code Lists) Para poder intercambiar y comprender los datos, hace falta que se declaren los posibles valores de cada concepto. Aparte de la posibilidad de definir formatos de texto para valores de texto libre, que suelen usarse para atributos (Attributes), el enfoque más ampliamente usado es el de adjuntar listas de valores. A esta lista de posibles valores se la conoce como “lista de código” (Code List). Cada valor de la lista tiene una abreviatura independiente del lenguaje un “código” - y una descripción de lenguaje específica. Esto nos ayuda a librarnos de problemas de traducción a la hora de describir los datos: el código puede traducirse en descripciones en cualquier lenguaje sin tener que cambiar el código asociado a los propios datos. Siempre que sea posible, los valores de las listas de código (Code Lists) se toman de estándares internacionales; como aquellas propuestas en las directrices orientadas al contenido SDMX (SDMX Content Oriented Guidelines) u otras internacionalmente estandarizadas (por ejemplo listas de códigos (Code Lists) ISO para países y divisas). Para este ejemplo, han de definirse las listas de códigos específicas (Code Lists) o las listas de códigos (Code List) apropiadas que ya existen para las dimensiones (Dimensions), al igual que para los atributos (Attributes) no representados por valores de texto libre. Estas dimensiones (Dimensions) y atributos (Attributes) asociados a listas de códigos (Code List) son denominadas “codificadas”. Véase la tabla 7 para obtener un resumen de las listas de códigos (Code Lists) asociadas a los conceptos del ejemplo. Por favor, téngase en cuenta que para algunos de ellos solo se muestra una selección de códigos. 15/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos 16/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Tabla 7 – Resumen de las listas de códigos (Code Lists) 3.4.3 Dimensiones, atributos, grupos y medidas Los conceptos descriptores identificados se distinguen ahora entre dimensiones (Dimensions), que describen los datos y forman el identificador (clave) de los datos asociados, y atributos (Attributes), que proporcionan información descriptiva adicional para cualificar el dato y la medida (fenómeno observado). Las siguientes dimensiones (Dimensions) pueden ser detectadas (tal como se ilustran en el Dibujo 4): Frecuencia (FREQ); Región geográfica referida (COUNTRY); Indicadores de turismo (TOUR_INDICATOR); Actividad de turismo (TOUR_ACTIVITY); Tiempo (TIME_PERIOD) La frecuencia y el tiempo son dimensiones (Dimensions) especiales obligatorias para cualquier organización de datos TS, que normalmente aparecen juntos con el atributo de formateo asociado TIME_FORMAT. FREQ y TIME_PERIOD han de señalarse de la siguiente manera: 17/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Una serie temporal (Time Series) siempre tiene una “frecuencia” (FREQ). Este es un concepto descriptor que describe los intervalos de tiempo entre observaciones. La opción “isFrequencyDimension” ha de ser seleccionada para identificarlo. Solamente puede haber una dimensión (Dimension) de frecuencia por definición de estructura de datos (Data Structure Definition); La dimensión tiempo (Time Dimension) (TIME_PERIOD) es una dimensión (Dimension) especial que debe ser incluida en cualquier definición de estructura de datos (Data Structure Definition) que vaya a ser usada para mensajes de datos de serie temporal (Time Series). Esta dimensión (Dimension) se señala como “isTimeDimension” en la sección de DSD (familia clave - Key Family). Los elementos de dimensión (Dimension) contienen referencias a un concepto descriptor y a la lista de códigos (Code List) desde la cual el valor de dimensión (Dimension) se ha de tomar. El orden en la declaración de las dimensiones (Dimensions) es importante ya que describe el orden en el que las dimensiones (Dimensions) aparecerán en las claves (keys) (excepto para la dimensión de tiempo (Time Dimension), que no es parte de la clave). Normalmente FREQ y COUNTRY son los primeros conceptos en este orden. Atributos (Attributes) del ejemplo: Un elemento de tipo atributo del DSD contiene información, como por ejemplo, el concepto usado para el atributo, el nivel de asociación para ambas representaciones (serie temporal (Time Series) y transversal (Cross-Sectional)) y si el valor ha de ser proporcionado o no ("obligatorio" contra "condicional"). Entre ellos está, por ejemplo, la unidad de medida o información en OBS_STATUS. Los atributos (Attributes) con valores codificados incluyen el nombre de la lista de códigos (Code List) que proporcionan los valores. Los demás pueden tener un formato de datos especificado mediante el uso del elemento “TextFormat”. A continuación, el nivel de asociación: "Observación" (observation), "Grupo" (Group), "Serie" (series) o "Conjunto de Datos" (Dataset) se definen para los atributos (Attributes) en una representación de una serie temporal (Time Series). El concepto de formato de tiempo se especifica con la opción “isTimeFormat” (con el valor fijado en “true” -verdadero) y es habitualmente un atributo de nivel de serie obligatorio cuyo valor se toma de una lista de códigos (Code List) que cumple con la norma ISO8601. Para los atributos (Attributes) adjuntos al nivel de grupo (Group), primero ha de especificarse el grupo (Group) al cual los atributos (Attributes) se adjuntan con un elemento tipo “AttachmentGroup”4. En el dibujo 4 - Conceptos unidos a la tabla estadística TS, que se encuentra más arriba, se muestra como el OBSERVATION STATUS (estado de observación) se relaciona directamente con el valor de observación (“observation level”). TIME FORMAT (formato de tiempo) se mantiene normalmente en el mismo nivel (“serie” en el ejemplo) que las dimensiones FREQUENCY (frecuencia) y TIME PERIOD (periodo de tiempo). UNIT (unidad) se adjunta así mismo al nivel de serie. 4 Se proporcionan más explicaciones en profundidad sobre niveles de asociación atributos en el libro del estudiante n. 2 "El modelo de información SDMX". para 18/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Nivel de asociación para los atributos (Attributes) en la representación de datos de serie temporal (Time Series): Atributo Nivel de asociación OBSERVATION STATUS Observación TIME FORMAT Serie UNIT Serie Tabla 8 - Atributos (Attributes) con su nivel de asociación Estructuras de agrupamiento / empaquetado: El elemento de grupo (Group) declara los agrupamientos deseados de datos, por ejemplo el “sibling group”, que contienen un conjunto de series que son idénticas con respecto a sus conceptos, excepto el hecho de que son medidas con distintas frecuencias (observaciones mensuales, trimestrales y anuales). No se muestra ningún agrupamiento en el ejemplo5. Medida primaria (Primary Measure): Su misión es indicar qué concepto contendrá el valor medido. Se encuentra asociada convencionalmente al concepto de valor de observación (Observation Value) (OBS_VALUE) para el formato de datos de serie temporal (Time Series). 3.5 Definiciones adicionales transversales para la representación de datos Las representaciones transversales (Cross-Sectional) de los datos pueden obtenerse de la misma definición de estructura de datos (Data Structure Definition) de la que se estructuran las representaciones de serie temporal (Time Series), siempre que se proporcionen los metadatos de estructura adicionales que sean necesarios. Por lo tanto, una funcionalidad específica permite que se declaren múltiples medidas en la definición de estructura de datos (Data Structure Definition), tomando así sus valores de representación de lo que podría llamarse una “dimensión de medidas transversales” (Cross-Sectional Measure Dimension). Cuando los datos se estructuran para representar un conjunto de múltiples observaciones en un único momento en el tiempo, la “sección” (una o más observaciones para cada medida declarada) reemplaza a la serie en la estructura de datos para el formato transversal (CrossSectional). Las estructuras de datos transversales (Cross-Sectional) usan los mismos conceptos al describir los datos. La relación de los conceptos cambia (ej.: de serie a sección) para la presentación transversal (Cross-Sectional) de los datos. La definición de la clave de los datos también cambia, puesto que cada medida transversal (Cross-Sectional Measure) representa al menos una dimensión (Dimension) de la clave al nivel de sección. Estas dimensiones (Dimensions) se encuentran recogidas en la denominada “dimensión de medida” (Measure Dimension). 5 Se proporcionan más explicaciones en profundidad sobre las estructuras de agrupamiento / empaquetado en el libro del estudiante n. 2 – El modelo de información SDMX. 19/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Los otros elementos de la clave pueden encontrarse a nivel sección en el ejemplo, de la misma forma que su declaración a nivel de serie para las estructuras de datos en serie temporal (Times Series). Como consecuencia, el ejemplo transversal (Cross-Sectional) muestra las mismas clases de datos que las hechas antes a partir de una serie temporal (Time Series) en una organización diferente. Además de los elementos de la DSD para los datos de serie temporal (Time Series), se han de añadir especificaciones adicionales al formato transversal (Cross-Sectional) con el fin de que se pueda usar la DSD para mensajes de datos SDMX-ML de ambas organizaciones de datos. Las múltiples medidas de la representación de datos transversales (Cross-Sectional) han de definirse en la dimensión de medida (Measure Dimension). Los valores de la dimensión de medida (Measure Dimension) también se tratarán como conceptos: “COUNTRY” se declara como “dimensión de medida” (“Measure Dimension”), y los elementos de esta dimensión (Dimension) se toman de una lista de código “CL_COUNTRY” (por favor comparar con la tabla 7 - Vista general de las listas de códigos (Code Lists)); Además, ha de definirse el nivel de asociación para las dimensiones (Dimensions) y los atributos (Attributes) con respecto al formato transversal (Cross-Sectional): Dimensión Nivel de Asociación FRECUENCY TOUR_INDICATOR TOUR_ACTIVITY TIME PERIOD Sección Sección Sección Sección Atributo Nivel de Asociación OBSERVATION STATUS TIME FORMAT UNIT Observación Sección Sección Tabla 9 – Asociación transversal (Cross-Sectional) 20/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Dibujo 5 – Conceptos unidos a la tabla estadística CS 3.6 Construcción de la estructura de datos SDMX-ML Tras tener una visión general adecuada de la estructura de los datos, la estructura que se presenta en la tabla 10 puede definirse formalmente en SDMX-ML, preferentemente con la ayuda de una herramienta dedicada SDMX, como por ejemplo, el Data Structure Wizard (DSW) o la función de construcción de DSD del registro SDMX (“SDMX Registry”) de Eurostat. ESTRUCTURA PARA LA DSD – Serie Temporal (TS) y Transversal (CS) Clave (TS) Clave (CS) Nivel de Asociación y estado de uso ID Concepto Nombre de Concepto ID Formato de Lista de Códigos Nombre de Lista de Códigos Dimensiones 1 1 Sección de Asociación CS 2 FREQ Frecuencia CL_FREQ(1.0) Lista de códigos de frecuencia COUNTRY País Turístico CL_COUNTRY(1.0) Lista de códigos de País 3 2 Sección de Asociación CS INDIC_TO Indicador de Turismo CL_TOUR_INDICAT (1.0) Lista de códigos de Indicador de Turismo 4 3 Sección de Asociación CS ACTIVITY_TO Actividad Turística CL_TOUR_ACTIVITY (1.0) Lista de códigos de Actividad de Turismo Medidas CS AT Austria CL_COUNTRY(1.0) Lista de códigos de 21/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos País ES España CL_COUNTRY(1.0) Lista de códigos de País FR Francia CL_COUNTRY(1.0) Lista de códigos de País IT Italia CL_COUNTRY(1.0) Lista de códigos de País CL_OBS_STATUS (1.0) Lista de códigos del estado de observación 4 Referencia de Tiempo y observaciones Sección de Asociación CS TIME_PERIOD Período de tiempo OBS_VALUE Valor de observación Atributos de observación asociados Nivel de asociaci ón / TS Nivel de asociación / CS Condicional Obligatorio Observa ción Observación Condicional OBS_STATUS Otros atributos Serie Sección Obligatorio UNIT CL_UNIT(1.0) Lista de códigos de unidad Serie Sección Obligatorio TIME_FORMAT CL_TIME_FORMAT (1.0) Formato de tiempo Tabla 10 – Vista general de la estructura para la creación de la DSD Al aplicar una de esas herramientas (por ejemplo el DSW) para definir un DSD con sus artefactos asociados, las definiciones de estructura de datos (Data Structure Definitions) definidas se almacenarán en un formato de mensaje de estructura SDMX-ML (SDMX-ML Structure Message) dedicado. El denominado formato de mensaje de estructura SDMX-ML (SDMX Structure Message) contiene la descripción de los metadatos estructurales, tales como la familia clave (Key Family), el esquema de concepto, conceptos y listas de códigos (Code Lists). Como los mensajes de estructura SDMX-ML (SDMX-ML Structure Messages) no son fáciles de leer, el dibujo 6 - La parte de Familia Clave (Key Family) de la MIG (Message Implementation Guide) - muestra la estructura de datos en el formato sencillo de guía de implementación de mensaje (MIG: Message Implementation Guide). 22/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Dibujo 6 – La parte de Familia Clave (Key Family) de la MIG (Message Implementation Guide) 3.7 Formato transversal especial (censo) Con respecto al establecimiento del nuevo Censo 2011, se opta por una organización de datos transversales (Cross-Sectional) especiales para el intercambio de datos. Primero, se debe 23/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos describir un hipercubo como una DSD. Por consecuente, se debe crear una DSD para cada uno de los hipercubos de censo. El formato de estructura de datos detallado más abajo (organización de datos CS sin medidas CS) para la aplicación piloto del “Census Hub” fue elegido por su flexibilidad en cuanto al manejo de datos tabulados transversalmente y su estructura específicamente fácil de implementar. Se espera que este tipo de DSD se use frecuentemente en el futuro para transmisiones de datos similares. El ejemplo se centra en el primer hipercubo de censo incluido en el proyecto piloto de “Census Hub” con las dimensiones (Dimensions): AGE, CAS (current activity status, “estado de actividad actual” en inglés), GEO (geographical area) y SEX. Un segundo hipercubo reemplaza a la dimensión (Dimension) CAS (current activity status) por: Marital status (“estado civil”). La especificación de la estructura transversal (Cross-Sectional) del censo del primer hipercubo puede resumirse de la siguiente forma: No se miden fenómenos múltiples, por tanto no se definen medidas transversales (Cross-Sectional Measures); La medida primaria (Primary Measure) (OBS_VALUE se incluye para cumplir con el estándar SDMX y para medir el fenómeno asociado; Las dimensiones (Dimensions) declaradas: AGE, CAS (current activity status), GEO (geographical area) y SEX, las cuales representan la “clave” para los datos del censo (census), se relacionan con la medida OBS_VALUE al nivel CS de “Observation”. Las siguientes dimensiones (Dimensions) son especiales: TIME_PERIOD y FREQ. Las dimensiones (Dimensions) TIME-PERIOD y FREQ y el atributo TIME_FORMAT se relacionan con el nivel de grupo (Group) CS; Un atributo (Attribute) más completa la definición de las DSD: estado de observación (OBS_STATUS), que se relaciona con el nivel “Observational”. La construcción del DSD sigue los mismos pasos descritos anteriormente, pero teniendo en cuenta que las dimensiones (Dimensions) descritas arriba reducen la complejidad en cuanto a los pasos y al número, ya que ninguna dimensión (Dimension) de medida transversal (CrossSectional Measure) ha de ser definida con sus conceptos asociados. La definición de estructura de datos (Data Structure Definition) construida tiene la misión de manejar los mensajes de datos SDMX-ML en el formato transversal (Cross-Sectional), aunque una organización de datos TS también sería posible, ya que las dimensiones (Dimensions) tiempo, frecuencia y formato de tiempo están definidas. La tabla 11 - Visión general de la estructura para la creación de la CENSUS DSD, presenta una vista general de las definiciones necesarias de la CENSUS-DSD. 24/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Tabla 11 – Visión general de la estructura para la creación de la CENSUS-DSD ESTRUCTURA PARA LA DSD – “Census HUB” – Transversal (CS) Clave (cs) Nivel de asociación y estado de uso Id concepto Nombre de concepto Id lista de códigos Dimensión 1 Observación de Asociación CS AGE Clases de edad CL_AGE_M 2 Observación de Asociación CS CAS Estado Actual de Actividad CL_CAS_M 3 Observación de Asociación CS GEO Área geográfica CL_GEO_M 4 Observación de Asociación CS SEX Sexo CL_SEX_M Grupo de Asociación CS TIME_PERIOD Período de tiempo Grupo de Asociación CS FREQ Frecuencia CL_FREQ_M Medida Primaria Observación de Asociación CS Condicional OBS_VALUE Valor de observación Atributos Grupo de Asociación CS Obligatorio TIME_FORMAT Formato de tiempo CL_TIME_FORMAT Observación de Asociación CS Condicional OBS_STATUS Estado de la Observación CL_OBS_STATUS 25/45 Guía de auto-aprendizaje en SDMX 4 Libro del estudiante n. 4 - Definición de estructura de datos Creación paso a paso de la DSD para el ejemplo de turismo 4.1 Data Structure Wizard (DSW) La aplicación “Data Structure Wizard” (DSW) proporciona una solución mejorada para la gestión de definiciones de estructuras de datos (DSD - Data Structure Definitions) dentro del estándar SDMX v2.0. Puede actuar como una herramienta híbrida que puede usarse tanto offline como online (unida a un “SDMX Registry”), dependiendo de lo que elija el usuario y de sus derechos de acceso. El modo offline tiene como fin el mantenimiento de artefactos SDMX v2.0. Un repositorio local se utilizará para almacenar archivos de estructura SDMX-ML de los artefactos; En el modo online, la herramienta se comunica con cualquier “SDMX Registry” que cumpla con el estándar (ej: “SDMX Registry” de Eurostat) ofreciendo al mismo tiempo todas las funcionalidades proporcionadas en el modo offline. Además, tras editar y almacenar los artefactos DSD localmente (offline), el artefacto editado (o uno nuevo) puede enviarse al “SDMX Registry” mientras que el usuario tenga privilegio de “mantenimiento”. Otras habilidades de la aplicación incluyen la creación de ficheros de muestra de datos SDMX-ML desde plantillas DSD o la construcción de la guía de implementación de mensajes (MIG - Message Implementation Guide) para una DSD dada. El DSW (“Data Structure Wizard”) también proporciona varios mecanismos de importación/exportación desde/a ficheros SDMX-ML v2.0. El sistema HELP de la aplicación ofrece explicaciones paso a paso con la ayuda de imágenes para la creación de cada artefacto SDMX con el DSW (“Data Structure Wizard”). A modo de resumen, el DSW (“Data Structure Wizard”) cubre las siguientes funcionalidades para el manejo de artefactos de metadatos estructurales: Interacción con cualquier “SDMX Registry” que cumpla con el estándar, tal y como se describe más arriba. Mantenimiento de los siguientes artefactos SDMX v2.0: o Listas de códigos (Code Lists); o Esquemas de concepto (Concept Schemes); o Definiciones de estructuras de datos (Data Structure Definitions); o Flujos de datos (Data Flows); o Esquemas de categoría (Category Schemes); o Listas de códigos jerarquizadas (Hierarchical Code Lists); o Esquemas de organización (Organisation Schemes); Creación de plantillas de mensaje de datos para una DSD específica en formato SDMX v2.0; Importación y exportación de artefactos desde/a formato SDMX-ML v2.0; Importación y exportación desde/a otros formatos; Construcción y exportación de una MIG (Message Implementation Guide) para una DSD dada; 26/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Impresión de informes resumen para listas de códigos (Code Lists), conceptos sacados de esquemas de concepto (Concept Schemes), DSD, flujos de datos (Data Flows) e impresión de informes para los componentes DSD y para los códigos de las listas de códigos (Code Lists); Habilidades de búsqueda (buscar un flujo de datos (Data Flow) para una DSD especificada, buscar una DSD para un flujo de datos (Data Flow) especificado, buscar todas las DSD usando una lista de códigos (Code List) y buscar todas las DSD usando un concepto dado. 4.2 Creación de una DSD de turismo con el DSW6 4.2.1 Definición de listas de códigos Para crear una nueva lista de códigos (Code List) en la aplicación: al seleccionar 'Add' desde el menú contextual del nodo 'Code lists', se muestra una nueva página de lista de códigos (Code List) en la parte derecha de la pantalla y, en la ventana izquierda, un nodo hijo aparece de las listas de códigos (Code Lists) marcados con '++' (tal como indica la flecha roja '2' en el dibujo abajo). Para crear una lista de códigos (Code List), los requisitos mínimos son rellenar los campos obligatorios de las secciones 'Code List Attributes Panel' y 'CodeList Properties Panel', y presionar el botón 'Save Code List'. Los campos obligatorios están destacados en amarillo y 6 La siguiente creación de la DSD paso a paso solo trata los objetos principales y los elementos que son necesarios para construir la DSD para el ejemplo de turismo. Para una introducción más específica sobre el DSW, se proporciona una guía junto con la herramienta además de un sistema de ayuda interno que ofrece una orientación detallada sobre la creación de artefactos. Para este capítulo se usó la versión 0.8.6 del DSW. 27/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos señalados con el signo (*). Información de Listas de Códigos En la página mostrada en el dibujo de arriba, seleccionar la etiqueta 'CodeList Information' cómo indica la flecha roja '3'. En el Code List Attributes Panel (4) el usuario ha de realizar las siguientes acciones: Rellenar el 'ID' obligatorio; Seleccionar la 'Agency ID' que se encuentra previamente rellenada con el primer 'AgencyID' de la lista de agencias proporcionada por la aplicación (requiriéndose así a un esquema de organización (Organisation Scheme) y al menos la definición de una agencia (ej: ESTAT) en la sección de artefactos del esquema de organización (Organisation Scheme)); Los otros campos se pueden rellenar opcionalmente. El campo 'Version' lo puede proporcionar el usuario, pero si se omite, la versión se considerará como 1.0 o incrementada consecutivamente para una nueva lista de códigos (Code List). Si la casilla 'Is Final' se encuentra seleccionada, el artefacto se protegerá (ninguna modificación más será posible) y podrán ser añadidas referencias por otros artefactos (ej: por un DSD). En el CodeList Properties Panel (5) el usuario puede realizar las siguientes acciones: Rellenar el campo obligatorio 'Names'. Se ha de definir al menos un valor localizado (lenguaje). Para guardar toda la información introducida, presionar 'Save CodeList' (6). Elementos de Listas de Códigos En la etiqueta 'CodeList Elements' hay una sección con elementos existentes enumerados que provienen de la lista de códigos (Code List) seleccionada (con su valor y código padre), como indica la flecha roja '1' en el dibujo de abajo. 28/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Para añadir un valor, presionar el botón 'New Code' como indica la flecha roja '2', y entonces: Rellenar el campo obligatorio 'Value' con el código (3); Rellenar el campo 'Descriptions' (4), que también es obligatorio, con la descripción del código; Presionar el botón 'Save Code' (5) y la información se añadirá en la sección superior de la etiqueta 'Codelist Elements'; Los pasos (2-5) se repiten para introducir cada código ; El botón 'Remove Code' borra un código después de seleccionarlo; Para ver los códigos creados como un árbol de código, el usuario debe presionar el botón de 'Tree view' de la sección señalada por la flecha '2' y una ventana aparecerá mostrando el árbol de código. Después de haber rellenado todos los campos obligatorios, la nueva lista de códigos se guardará al presionar 'Save Code list' (6). Como resultado, el árbol de la ventana izquierda de la pantalla se refrescará para mostrar la nueva lista de s (Code List) creada. El nombre de la nueva lista de códigos (Code List) es una combinación del 'ID', 'Agency ID' y 'Version', que lo identifica singularmente. 4.2.2 Definición de esquema de concepto (Concept Scheme) Los esquemas de concepto (Concept Schemes) representan una colección de conceptos. Para iniciar la creación de un esquema de concepto (Concept Scheme) en la aplicación DSW: 29/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Seleccionar el nodo de artefacto 'ConceptSchemes' del árbol de artefactos SDMX, hacer clic con el botón derecho y seleccionar ‘Add’ (1). Un nodo hijo de 'ConceptSchemes' aparecerá marcado con '++' (2). En el dibujo de arriba hay dos etiquetas ('ConceptScheme Information' y 'ConceptScheme Elements') donde el usuario tiene que completar por lo menos la información obligatoria para crear un nuevo artefacto ConceptScheme. Información de Esquema de Concepto (3) En el ConceptScheme Attributes Panel (4) se pueden realizar las siguientes acciones: Rellenar el 'ID', seleccionar 'Agency ID' y proporcionar 'Version'; si no se rellenase este campo, la versión por defecto será la 1.0; Rellenar los otros campos opcionalmente. Al seleccionar la casilla 'Is Final' se protege el artefacto guardado y se permite añadir referencias. En el ConceptScheme Properties Panel (5) se pueden realizar las siguientes acciones: Rellenar el campo obligatorio 'Names'. Rellenar opcionalmente el campo 'Description' en el lenguaje respectivo para cada nombre introducido que dependa de un lenguaje. Guardar toda la información introducida al presionar el botón 'Save ConceptScheme' (6). Elementos de esquema de concepto (Concept Scheme) En la etiqueta superior 'ConceptScheme' (1 - en el dibujo más abajo) se encuentra una sección con tablas que enumeran los conceptos definidos para el esquema de concepto (Concept Scheme) actual con su ID y su concepto padre (esto por ejemplo es aplicable a los conceptos de medida CS (CS Measure Concept): AT, ES, FR e IT, donde el concepto COUNTRY se tiene que introducir). 30/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos En la sección Concept *NAME* Properties el usuario puede añadir un concepto para el esquema actual que se está completando, al presionar el botón 'New Concept' (2). Después de presionar 'New Concept', la tabla de la cabecera de la etiqueta se habilita (si es que estaba vacía) y se añade una nueva línea de cuadrícula (rectángulo rojo). Los siguientes pasos han de realizarse: Rellenar el campo 'ID' y 'Names' (3 y 4), ambos obligatorios y por ellos señalados en amarillo y con un *; Rellenar el panel 'Text Format' con las propiedades que se muestran. Presionar el botón (5) 'Save Concept' y la información se añadirá a la línea de cuadrícula de la tabla. Los pasos que van del 2 al 5 se tendrán que repetir para cada concepto necesario en el ejemplo. Para ver los conceptos creados o asociados con el esquema de concepto (Concept 31/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Scheme) actual como una lista en forma de árbol, presionar el botón 'Tree view'. Para guardar el esquema de concepto (Concept Scheme) entero, que ahora incluye los nuevos conceptos creados para el ejemplo de turismo en la tabla, presionar el botón (6) 'Save ConceptScheme'. 4.2.3 Definición de una DSD Antes de empezar a crear una nueva DSD, debe de haber en la aplicación DSW al menos un esquema de concepto (Concept Scheme) con los conceptos definidos. 32/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Al seleccionar 'Add' dentro del menú contextual del nodo 'DSDs', un nueva página de DSD muestra en la parte derecha de la pantalla, y concretamente en la ventana derecha, un nodo hijo de DSD aparecerá señalado con '++' (2). Para empezar a completar el artefacto DSD, seleccionar la etiqueta 'DSD Information' (3) como en el dibujo de arriba. Información DSD En el DSD Attributes Panel (4) el usuario deberá realizar las siguientes operaciones: Rellenar los campos obligatorios 'ID' y 'AgencyID', que se encuentran ya rellenados con el primer AgencyID de la lista 'OrganisationScheme' proporcionado por la aplicación DSW; Los otros campos ('Valid From', 'Valid To', 'URI', 'URN' e 'Is Final') son opcionales. El campo URI apunta a un mensaje de estructura SDMX (SDMX Structure Message) que contiene detalles completos sobre el flujo de datos (Data Flow). El atributo 'URN' (universal resource name) puede albergar un vínculo válido con el registro SDMX (“SDMX Registry”). Si se selecciona la casilla 'Is Final', el artefacto se protegerá (ninguna modificación más será posible) y podrán ser añadidas referencias por otros artefactos (ej: un flujo de datos (Data Flow) basado en esta DSD); El campo 'Version' se puede rellenar. Si se omite, la versión será la 1.0. Los campos 'ValidFrom' y 'ValidTo' pueden albergar fechas que proporcionen información de validación suplementaria sobre la versión actual del DSD. En el DSD Properties Panel (5) se requieren las siguientes acciones: Rellenar el campo 'Names', y opcionalmente, rellenar el campo 'Description'. Para guardar toda la información introducida, presionar 'Save DSD'. Elementos DSD – Medida Primaria 33/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos La pantalla 'DSD' contiene una segunda etiqueta que se llama 'DSD Elements' (2). En primer lugar la etiqueta 'Primary Measure' (señalada en un cuadrado rojo) se tiene que rellenar. Presionar el botón 'Choose' (2) para seleccionar el concepto OBS_VALUE relacionado. Un ventana aparecerá mostrando donde el usuario puede buscar y seleccionar el concepto del esquema de concepto (Concept Scheme) relacionado por ID o por nombre. Después de rellenar todos los campos obligatorios, con el botón 'Save DSD' (3) se almacena el artefacto actualizado. Elementos DSD - Dimensiones En el 'DSD Elements' (1) del dibujo de abajo, seleccionar la etiqueta 'Dimensions' (2). 34/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos En este panel el usuario deberá realizar las siguientes acciones: Añadir una nueva dimensión (Dimension), al presionar el botón 'New Dimension' (3). Una nueva línea de cuadrícula se añadirá a la tabla (rectángulo rojo) enumerando las dimensiones (Dimensions) incluidas en la DSD actual; Para seleccionar un 'Role' (4) el usuario ha de elegir una de estas opciones de la lista: 'Dimension', 'TimeDimension', 'FrequencyDimension' o 'MeasureDimension'; Como COUNTRY es la dimensión (Dimension) de medida de nuestro ejemplo, los campos Role, Concept y Code List que proporcionan los valores para el concepto COUNTRY han de ser elegidos adecuadamente (4-6); Completar opcionalmente los elementos de la sección Text Format para definir un formato de texto específico para la dimensión (Dimension). Para guardar la dimensión (Dimension) y la estructura de datos actualizada, presionar primero 'Save Dimension' (7) y luego 'Save DSD' (8). 35/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Una vez que las dimensiones (Dimensions) reflejadas arriba se hayan definido, el usuario pasará a la siguiente etiqueta. Elementos DSD – Claves de Grupo El usuario podrá declarar aquí cualquier agrupamiento dentro de las dimensiones (Dimensions) declaradas (no temporales). Estas forman claves parciales a las que se les puede adjuntar atributos (Attributes). Un posible agrupamiento es el denominado ‘Sibling group’, que no se definirá para el ejemplo de turismo. El dibujo inferior ilustra los pasos a seguir para completar los campos: Añadir un nuevo grupo (Group) al presionar 'New Group' (3); Rellenar el recuadro 'Group Key ID' (4) con el nombre de la clave de grupo (Group Key); Seleccionar la dimensión (Dimension) que forma la clave de grupo (Group Key) de la lista 'Available' y transferirla a 'Selected' (5). Guardar el grupo (Group) al presionar el botón 'Save Group' (3 - detrás de 'New Group'), y entonces presionar 'Save DSD' (6). 36/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Elementos DSD – Medidas XS En la etiqueta 'DSD Elements' (1) seleccionar las definiciones para las medidas transversales (Cross-Sectional Measures) en la etiqueta 'XS Measures' (2) como en el dibujo de abajo. Esta pantalla solo se habilitará si el usuario ha seleccionado en la etiqueta 'Dimensions' de arriba, el valor 'Measure Dimension' de la lista 'Role' para la dimensión de COUNTRY. Las siguientes acciones serán necesarias para crear mediciones transversales (Cross-Sectional Measures) para la dimensión (Dimension) de medida COUNTRY del ejemplo de turismo: Elegir el valor para completar el campo 'Concept' (3) para cada medida transversal (XSMeasures - Cross-Sectional) definida para el artefacto DSD actual y enumerada en la sección de tabla (señalada con un rectángulo rojo en el dibujo de arriba); 37/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Elegir la lista de código (Code List) COUNTRY; Nota: no es obligatorio rellenar la sección 'Text Format'. Para guardar la medida transversal (Cross-Sectional Measure), presionar el botón 'Save XSMeasure' (4). Para guardar la estructura de datos actual con sus actualizaciones, presionar el botón 'Save DSD'. 38/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Elementos DSD – Atributos En la etiqueta 'DSD Elements' (1) del dibujo de abajo seleccionar la etiqueta 'Attributes' (2). En esta pantalla han de realizarse las siguientes acciones: Añadir un atributo nuevo al presionar el botón 'New Attribute' (3). Una nueva línea de cuadrícula se añadirá a la sección de la tabla en la pantalla (señalada con el rectángulo rojo); Elegir un concepto presionando el botón 'Choose' del campo obligatorio 'Concept' (4) y seguir los pasos indicados. 39/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos Seleccionar un 'Assignment Status' (5). Este estado indica si un valor ha de ser proporcionado para el atributo de un fichero de datos. En ese caso, dos estados de asociación son posibles: 'Mandatory' y 'Conditional'. El elemento 'Attachment Group' se habilita cuando este atributo se atribuye al nivel 'Group'. Este indica con que grupo (Group) o grupos declarados se puede asociar el atributo. Ningún grupo (Group) se declara y ningún tipo de relación está prevista en el ejemplo de turismo. Seleccionar un 'Attachment Level' de la lista respectiva (6). Las opciones disponibles son 'DataSet', 'Group', 'Series' y 'Observation'; Al seleccionar 'Observation' como nivel de asociación, la sección 'Attachment Measure' (7) se habilita y el usuario debe elegir de las medidas disponibles, las que vaya a usar para la asociación. Esto implica el tener que mover al menos un valor desde la correspondiente lista 'Available' hasta la de 'Selected'; Cuando el usuario selecciona 'Group' como nivel de asociación, la sección 'Attached Group ID' (8) se habilita y el usuario puede seleccionar normalmente de entre los grupos (Groups) disponibles aquellos con los que el atributo tiene que asociarse (esto no es así en el ejemplo de turismo); El tipo de atributo deberá definirse para los atributos (Attributes) especiales con las opciones de la lista 'Is...'; éstas son: 'TimeFormat', 'Entity Attribute', 'NonObservational Time Attribute', 'Count Attribute', 'Frequency Attribute' o 'Identity Attribute'. Por tanto, para el ejemplo, el atributo TIME_FORMAT se señalará como 'Is... TimeFormat'; En la sección 'CrossSectional Attachment Level', el nivel de asociación de la organización de datos transversales (Cross-Sectional) se tiene que definir, ya que la DSD TOURISM admite tanto ficheros de datos TS como CS; La sección 'Text Format' se puede rellenar opcionalmente. Para guardar el atributo que se está editando, presionar el botón 'Save Attribute' (9). Para guardar la estructura de datos actual, presionar el botón 'Save DSD' (10) 4.2.4 Exportar DSD Para exportar el DSD a un fichero de estructura SDMX-ML, incluyendo los artefactos referenciados (listas de códigos (Code Lists), esquema de concepto (Concept Scheme)), el usuario ha de hacer clic con el botón derecho sobre el DSD respectivo en el árbol 'SDMX Artefacts' y elegir 'Export' en el menú. También es posible exportar el DSD y los artefactos asociados, como las listas de códigos (Code List) y el esquema de concepto (Concept Scheme), por separado. Los ficheros SDMX-ML exportados se alojan en un archivo dentro de un anexo a este libro del estudiante. En el 'Export Panel' de la derecha, se selecciona la DSD para la exportación incluyendo sus referencias (casilla). Al presionar el botón 'Export', el destino de exportación se puede seleccionar. El DSW tiene una función similar que permite importar los DSD y otros artefactos. 40/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos 41/45 Guía de auto-aprendizaje en SDMX 5 Libro del estudiante n. 4 - Definición de estructura de datos Guía de implementación de mensajes La guía de implementación de mensajes (Message Implementation Guide) es un documento (en formato de fichero rich-text) que enumera todas las especificaciones de una DSD. La MIG (Message Implementation Guide) ayuda al usuario a producir o incluso a leer/comprender un conjunto de datos SDMX (SDMX Dataset) y/o su estructura. Está diseñada para gente sin experiencia previa con SDMX o XML. Para ello, la MIG (Message Implementation Guide) contiene descripciones detalladas de la estructura de un conjunto de datos (Dataset) particular en relación a los siguientes elementos: Dimensiones (Dimensions) (concepto, representación y nivel de asociación); Medidas (Measures) (concepto, representación y nivel de asociación); Atributos (Attributes) (concepto, representación y nivel de asociación); Conceptos (Concepts); Listas de códigos (Code Lists). La herramienta DSW contiene una función para crear una MIG para una DSD definida. Para construir y guardar la MIG (como fichero rtf), el usuario debe presionar el botón 'Download MIG' (señalado con el rectángulo rojo) en el dibujo de abajo. Se puede seleccionar el destino de la carpeta de descarga y confirmar la operación. 42/45 Guía de auto-aprendizaje en SDMX Libro del estudiante n. 4 - Definición de estructura de datos En el archivo de anexo se presenta un ejemplo de la MIG para la DSD de turismo. 43/45 Guía de auto-aprendizaje en SDMX 6 Libro del estudiante n. 4 - Definición de estructura de datos Glosario La tabla 12 presenta la lista de conceptos y acrónimos con sus definiciones. Concepto Definición COG Directrices Orientadas al Contenido (Content Oriented Guidelines) CS Transversal (Cross-Sectional) DSD Definición de Estructura de Datos (Data Structure Definition) DSW Data Structure Wizard ISO Organización Internacional para la Estandarización (International Organisation for Standardisation) MIG Guía de Implementación Implementation Guide) MSD Definición de Estructura de Metadatos (Metadata Structure Definition) SDMX Intercambio de Datos y Metadatos Estadísticos (Statistical Data and Metadata eXchange) SDMX-IM Modelo de Información SDMX (SDMX Information Model) SDMX-ML Lenguaje de Marcas SDMX (SDMX Mark-up Language) Formato XML para el intercambio de datos y metadatos estructurados en SDMX TS Serie Temporal (Time Series) URI Identificador de Recursos Unificados (Unified Resource Identifier) URN Nombre de Recursos Unificados (Unified Resource Name) XML Lenguaje de Marcas Extensible (EXtensible Mark-up Language) de Mensajes (Message Tabla 12 - Glosario 44/45