CAPÍTULO 24 ALMACENAMIENTO Y RECUPERAClÓN DE DATOS

Anuncio
CAPÍTULO 24
ALMACENAMIENTO Y RECUPERAClÓN DE DATOS
24.1
Almacenamiento de datos originales
Los datos brutos, ya sean formularios de terreno, gráficos o informes deben quedar disponibles luego del procesamiento.
Algunos errores cometidos al hacer los informes y el procesamiento pueden no salir a la luz hasta que los usuarios los
examinen. Puede ser necesario también revisar las trascripciones del original o volver a analizar la interpretación de un signo
dudoso hecha por el operario.
Los registros de un emplazamiento en particular pueden ser recapturados en respuesta a un desarrollo futuro, o incluso los
cambios en la tecnología pueden resultar en una elevación de las normas. En ambos casos, se requiere un nuevo procesamiento
de los datos. Por lo tanto, los datos originales deben ser archivados en forma segura. El almacenamiento debe mantenerse
separado de la base de datos electrónica y debe estar en un lugar seguro.
Los datos brutos deberían ser accesibles para cualquier usuario. A este efecto, y para comodidad del usuario, el material puede
ser archivado en microfilms.
24.2
24.2.1
Gestión y almacenamiento de datos procesados
Generalidades
Una descripción completa de los procedimientos recomendados para almacenar y clasificar datos climatológicos figura en la
Guía de prácticas climatológicas [1] de la OMM. Los datos hidrológicos requieren un tratamiento algo diferente en materia
de eficiencia en el almacenamiento, pero se pueden aplicar muchas de las mismas consideraciones. Un breve resumen de los
puntos más importantes de la Guía de prácticas climatológicas se incluye en este capítulo, así como algunas notas relativas a
los nuevos equipos que no figuran en esa Guía y concernientes a los datos hidrológicos.
Numerosos países recolectan grandes cantidades de datos climatológicos e hidrológicos, pero no pueden almacenar de todos
los datos originales. Sin embargo, antes de destruir los originales, se pueden hacer copias en medios que requieren una
pequeña fracción del espacio demandado por los documentos originales. Por ejemplo, un microfilm de datos (en forma de
cifras o gráficos) ocupa casi 300 veces menos del espacio de almacenamiento de los registros originales.
La mayoría de los datos digitales son archivados en cintas o discos magnéticas. Como una cinta magnética de 2 500 pies (762
metros), con una densidad de 800 caracteres por pulgada (25 milímetros), puede contener la información de cerca de 250 000
de tarjetas perforadas, el espacio de almacenamiento requerido en la actualidad es una fracción muy pequeña del espacio
requerido antes. Copias duplicadas de cintas magnéticas se pueden hacer en minutos, con un costo muy bajo. Del mismo
modo, las cintas de papel perforado, utilizadas cada vez menos como forma de almacenamiento permanente en los últimos
años, se pueden destruir una vez que los datos han sido transferidos a la cinta magnética, si el espacio de almacenamiento
constituye un problema. A menudo se utiliza el microfilm para archivar los datos de manera permanente luego de que se han
hecho todas las correcciones. Algunos países almacenan datos en discos CD-ROM, que pueden contener grandes volúmenes
de datos y con un fácil acceso.
Las condiciones de almacenamiento para cualquiera de estos soportes deben minimizar la destrucción de registros archivados
por efectos del calor excesivo, variaciones de temperatura, alta humedad, polvo, insectos u otros animales dañinos, radiación y
fuego. Las cintas magnéticas se deben proteger de las influencias electromagnéticas. En la microfilmación se deben utilizar
películas no inflamables. Cuando sea posible, se debe tener vanas copias de los registros, unas en el centro de captación
principal y otras en los centros regionales o en las oficinas o domicilios de los observadores.
A pesar de su prodigioso poder de procesamiento, las microcomputadoras están apenas en el principio de su capacidad por
cuanto se refiere al manejo de grandes volúmenes de datos. Por esta razón, se considera que una minicomputadora central o
unidad central compartida conviene más para los sistemas de inventario hidrológico a nivel regional. Sin embargo, parece
haber cierta ventaja en la distribución de las tareas de entrada de datos y la validación en los centros equipados con
microcomputadores de terreno. Esta estrategia se recomienda porque:
a) concentra las capacidades limitadas del centro en personal calificado para efectuar las principales actividades de
procesamiento de datos;
b) permite al personal de terreno trabajar en computadores y conocer las técnicas relacionadas. Esto deberá favorecer el
desarrollo a gran escala de las capacidades informáticas en el sector hidrológico.
El producto del control de calidad inicial y las etapas de procesamiento (capítulo 23) abarcan archivos intermedios que pueden
ser usados para actualizar ficheros permanentes de bases de datos. Los procedimientos de actualización deberían minimizar el
número de actualizaciones que se ejecutan y proteger la integridad de los datos contenidos en los ficheros maestros. Además,
la eficiencia con la que se pueden ejecutar las actualizaciones y las extracciones de datos depende de la organización física y
lógica de los archivos. Esta sección abordará estos temas, pero consideraremos en primer lugar la cuestión general de controlar
el flujo de datos a través de todas las etapas del procesamiento.
24.2.2
Control del flujo de datos
La importancia de un adecuado control de las series de datos que ingresan ya ha sido mencionada en relación a las operaciones
de entrada de datos. Es indispensable conocer el estado de todas las series de datos en las diversas etapas de validación y
actualización, sobre todo cuando se han descubierto datos dudosos y que se espera la respuesta de la persona encargada del
control de calidad de los datos hidrológicos.
Inicialmente todo el proceso de monitoreo puede ser manual, pero en definitiva algunas funciones podrán ser automatizados
como parte de las actividades generales del procesamiento informática de los datos. La automatización permite un monitoreo
de rutina del estado de lotes de datos, de los resúmenes de validación y de la disposición física los datos en el sistema, por
ejemplo el número de la cinta o del volumen en el disco, así como los nombres de las series de datos. Dicho control es esencial
cuando se procesan grandes cantidades de datos.
El personal encargado del control de datos deberá realizar las siguientes labores:
a)
registrar los lotes de datos que ingresan y encaminar estos lotes al sistema de entrada de datos apropiado;
b)
controlar y registrar el estado de la entrada de datos y de la introducción ulterior de los datos para la primera fase de
validación y procesamiento;
c)
encaminar los informes de validación al personal hidrológico apropiado y de recepción de los datos editados;
d)
repetir los pasos a) a c) hasta que todos los lotes de datos hayan sido aceptados para la actualización;
e)
transmitir resúmenes estadísticos mensuales y anuales a las agencias y al personal interesados.
La naturaleza exacta de las tareas depende de la posibilidad que tienen los usuarios de acceder a los datos para editarlos. En
sistemas en línea, donde los usuarios efectúan su propio control de calidad, las responsabilidades centrales son reducidas. Sin
embargo, dichos usuarios deben tener algún medio para indicar que el control de calidad ha sido completado y que las series de
datos están listas para su procesamiento posterior.
24.2.3
Procedimientos de actualización
En hidrología, la mayor parte de las bases de datos de archivos se actualizan al menos en dos etapas. Estas etapas se indican en
la figura 24. l. La primera etapa es el ciclo de actualizaciones mensuales correspondientes a un periodo estándar de informes.
La división de las primeras cuatro actividades de la primera etapa, entre diversas pasadas de computadora, depende del usuario
y de los recursos físicos del sistema. Si la mayoría de los ficheros están archivados en cinta, es casi imposible realizar la serie
completa de procesamiento mensual con un programa porque se requerirían demasiadas cintas. Por lo tanto, se recomienda
que no se calculen los valores derivados, por ejemplo los caudales o la evapotranspiración potencial, hasta que toda la
información básica haya sido revisada manualmente.
Para el usuario final, los resultados de esta primera fase de actualización son los informes de resúmenes mensuales. Para la
gestión de las bases de datos, lo más importante es actualizar los archivos de trabajo anuales. Si el sistema para esta primera
fase sólo procesa bloques de datos mensuales, podría ser necesario mantener archivos de datos incompletos. Esta necesidad
surge de¡ uso de registradores informáticos, donde el soporte del registro es cambiado normalmente a intervalos irregulares.
Así, al procesar el mes 1 pueden haber varios días del mes 2 en el soporte. En este caso, los datos del mes 2 se conservan en
un archivo temporario hasta que estén disponibles los datos complementarios durante el mes 3. El ciclo se repite, generando un
archivo completo del mes 2 y uno incompleto del mes 3. Este problema se plantea pocas veces con informes manuales o con
estaciones telemétricas. Si el soporte informática requiere un procesamiento previo, hay siempre la posibilidad de fraccionar
los archivos y de constituir luego archivos mensuales que podrían ser procesados previamente por una microcomputadora,
antes de ser remitidos al procesamiento principal.
Luego de pasar las revisiones de validación (sección 22.2) y de ser sometidos al procesamiento primario necesario (sección
23.3), los lotes de datos mensuales son incorporados al archivo actual de datos anuales. Los datos que no pasen las revisiones
de validación deben ser examinados manualmente y, cuando se detectan errores, se les debe aplicar el proceso indicado en la
figura 24. l.
A fin de asegurar una entrega adecuada de los datos, generalmente es necesario comenzar el procesamiento de cada lote de
datos mensuales desde el día 10 al 15 del mes siguiente. Si el procesamiento no se comienza a tiempo, existe el riesgo de que
la entrada y el procesamiento completo de los datos ocasione un retraso en actualización del archivo anual.
El propósito del ciclo anual de actualización es incorporar el archivo de trabajo anual a la base de datos históricos. Esta
transferencia conlleva un cambio en el estado de los datos en el que se transformaban los datos de trabajo en referencias
hidrológicas de calidad controlada. Por lo tanto, se debe asegurar, en la medida de lo posible, las causas de los valores dudosos
antes de efectuar la actualización anual.
Los datos resultantes del procesamiento anual se pueden publicar en anuarios hidrológicos.
NOTAS:
1. El procesamiento mensual comienza normalmente entre 10 y 15 días después del fin de mes.
2. El procesamiento anual comienza normalmente 30 días después del fin de año
3. Los archivos pueden ser totalmente independientes del sistema (cintas o diskettes) o pueden ser combinados, es decir en
línea (por ejemplo, los dos últimos años y fuera de línea.
4. La edición de datos de pequeña escala puede realizarse por intermedio de unidades de presentación visual (VDU)
5. Los informes mensuales y los de validación, que se presentan en forma separada, se pueden referir a un solo documento,
sobre todo por cuanto se refiere a parámetros que no requieren ninguna transformación, por ejemplo las precipitaciones.
Figura 24.1 Procesamiento y actualización en dos niveles para los datos hidrológicos
24.2.4
Compresión y exactitud
Una operación fundamental en toda actualización de bases de datos es la compresión de los datos para hacer un uso óptimo del
espacio de almacenamiento. La técnica de compactación se describe en la publicación de la OMM titulada Guidelínes for
Computerized Data Processing in Operational Hydrology and Land and Water Management [2]. Sin embargo, las técnicas de
compactación tienden a ser específicas para cada máquina y varias otras técnicas son empleadas en diversos sistemas de bases
de datos hidrológicas. Estas son:
a)
números enteros para el almacenamiento, que luego se envían a la escala correcta para la salida de valores. Por ejemplo,
las precipitaciones diarias, medidas con una precisión de 0,1 milímetro, pueden ser almacenadas en décimas de milímetro (un
entero) y divididas por 10 para los efectos de la salida. La memoria necesaria se reduce así a la mitad. Un entero normal
utiliza dos bytes de almacenamiento comparado con los cuatro bytes necesarios para guardar un número real (decimal);
b)
uso de archivos de datos sin formato (binarios) en lugar de archivos normales ASCII. Además -de requerir menos
espacio, los datos binarios son guardados y recuperados más rápidamente;
c)
uso de un contador para valores constantes que se repiten. Así, un período de 10 días sin precipitación no necesita ser
almacenado como una serie de 1 0 ceros, sino como un factor de repetición de 10 seguido por el valor cero;
d)
una versión mejorada del método anterior consiste en eliminar totalmente todos los datos redundantes. Éstos se deben al
registro repetido de fenómenos hidrológicos por algunos tipos de instrumentos de terreno, en particular los registradores
a intervalos fijos. Por ejemplo, en la secuencia 40, 50, 60 es evidente que el valor central puede ser derivado por
interpelación de los valores adyacentes. Así, pueden desarrollarse programas para rastrear los datos, eliminando todos
los valores que pueden ser interpelados linealmente dentro de un rango definido de tolerancia. Esta técnica reduce
mucho la necesidad de almacenamiento sin que se produzca una reducción importante del contenido de información de
los datos. En Nueva Zelandia el uso del Sistema TIDEDA Time Dependent Data, componente del HOMS GO6.2.01, ha
resultado en una reducción de dos a 12 veces del espacio de almacenamiento utilizado;
e)
uso de valores relativos en lugar de valores absolutos. Por ejemplo, el nivel de agua en un pozo puede ser expresado en
términos absolutos de elevación o, más fácilmente, en relación a algún plano de referencia local o al nivel de agua medio.
Sólo es necesario almacenar la diferencia con el valor anterior registrado. Estos diversos formatos producen números más
pequeños que pueden almacenarse en espacios más reducidos.
Se debe mantener un equilibrio en los niveles de compresión de datos empleados. Un nivel alto de compresión en el uso del
espacio se gana a expensas de ejecutar rutinas de compresión y expansión cada vez que los datos son guardados o recuperados.
El nivel correcto de compresión de datos debe reflejar las limitaciones relativas de espacio de almacenamiento y de capacidad
de cálculo, así como conocimientos para el desarrollo de programas, en cada instalación.
Con respecto a la exactitud de los datos almacenados, muy pocas veces ésta es superior a una milésima para los datos
hidrológicos. Por esta razón, numerosas bases de datos hidrológicos sólo almacenan datos con una precisión de tres o cuatro
cifras significativas. Así, un caudal calculado de 234,56 M3 S-1 puede ser almacenado como 235. Esta práctica también se
utiliza para ahorrar espacio de almacenamiento.
24.2.5
Organización de los archivos físicos
La organización secuencia¡ de los archivos es sencilla y se puede utilizar en todos los medios de almacenamiento; es
aplicable a series cronológicas de datos que son entrados y consultados con frecuencia de manera secuencial.
Los archivos secuenciales indizados resultan muy interesantes para el almacenamiento de la mayoría de datos hidrológicos
porque permiten conservar la naturaleza secuencias inherente de los datos en el soporte de almacenamiento. Además, existe la
posibilidad de acceder directamente a registros individuales o grupos de registro.
La organización con acceso aleatorio, como el secuencial indizado, sólo concierne a los archivos memorizados en disco o
diskettes, pero limita al sistema en relación con el volumen de almacenamiento. Se puede acceder con más rapidez y facilidad
a los registros. Mediante el uso de referencias cruzadas (punteros) los datos de un archivo de acceso aleatorio pueden
relacionarse en formas complejas y efectivas.
Si una base de datos hidrológica se desarrolla para efectuar una manipulación interactiva de datos en línea, los archivos
deben estar accesibles en disco, y debería poder usarse archivos secuenciales indizados o de acceso aleatorio. De hecho, su uso
es quizás esencial para obtener tiempos de respuesta aceptables al utilizar grandes cantidades de datos.
Cuando el acceso en línea de los datos no es prioritario, puede valer la pena mantener en un archivo series cronológicas de
una variable, por ejemplo niveles de agua o de precipitaciones, porque, en general, estos archivos son utilizados para extraer
una secuencia temporal de datos. Para archivos de series cronológicas de múltiples variables existen ciertas ventajas en la
organización por acceso secuencias indizado o aleatorio. Si una variable dada no ha sido medida en todas las estaciones, se
deben examinar los archivos secuenciales en todas las estaciones para saber si la variable fue memorizada o no. En algunas
clases de archivos de acceso aleatorio es posible guardar un puntero con cada valor de las variables que indique la ubicación
del próximo registro procedente de una estación que tiene un valor para la misma variable. Por lo tanto, se puede así acceder
directamente a este registro. Esta técnica es ventajosa para datos de calidad del agua donde las variables observadas varían
mucho entre estaciones y dentro de la misma estación en diferentes momentos.
Los datos grabados en cinta magnética, el formato más común para archivos de bases de datos grandes, deben estar en forma
secuencias. Sin embargo, cuando los archivos se transfieren de la cinta a un disco, puede utilizarse cualquiera de los métodos
de acceso descritos anteriormente. Cualquiera sea el método empleado, se recomienda que los grandes archivos de base de
datos estén sin formato (binario).
Algunos sistemas de base de datos utilizan una combinación de técnicas para maximizar la eficiencia del almacenamiento y la
recuperación. Esto se logra almacenando grandes grupos de datos secuenciales en registros únicos de archivos de acceso
aleatorio o secuencias indizado. De esta forma los datos diarios o incluso horarios anuales de una estación se pueden
almacenar como un registro físico en un archivo de acceso aleatorio o secuencias indizado. Para extraer los datos de un mes
determinado, se puede acceder directamente en el disco al registro anual de la estación correspondiente. Este registro es
transferido entonces a una memoria intermedia desde la cual los datos del mes en cuestión pueden ser leídos rápidamente.
Cabe mencionar el uso de sistemas de gestión de base de datos (DBMS). Estos sistemas se basan invariablemente en el uso de
archivos de acceso aleatorio [2]. Se recomienda cierta precaución al utilizarlos a menos que sean conocidos (y relativamente
similares) los formatos de ingreso y recuperación de los datos y que exista suficiente apoyo de programación. Se recomienda
tener en cuenta el carácter evolutivo de los DBMS.
Muchos servicios se encuentran actualmente evaluando el uso de sistemas de base de datos relacionases que permiten el
almacenamiento confirmado de datos y otras informaciones. Se debería seguir de cerca los avances que se registren en este
ámbito.
24.2.6
Organización de archivos lógicos
Existen dos aspectos en la organización lógica de los datos: los agrupamientos principales, que determinan el número de
archivos, y las series de valores de las variables que se incluyen en los registros de cada archivo.
Una base hidrológica completa contendrá los siguientes grupos de archivos:
a)
b)
c)
d)
archivos de referencia del sistema, que incluyen las listas de códigos (archivo diccionario) usados para validar el ingreso
de datos, codificar datos para su archivo y decodificarlos para la salida. Si se utiliza alguna forma de codificación
espacial de los datos se necesitarán también archivos de referencia hidrológicos y/o geográficos;
archivos de descripción de las estaciones, que abarcan desde simples archivos relativos al número, nombre, tipo,
ubicación e instrumentos de la estación, así como archivos detallados, con los datos completos de muestreo de pozos
perforados o barrenados;
archivos de calibración, que contienen la información de base detallada necesaria para calcular variables derivadas,
normalmente a nivel de cada estación, por ejemplo curvas de aforo para estaciones de medición de caudales en ríos y
coeficientes de calibración para sensores climatológicos y de calidad de las aguas. Algunos datos son independientes de
las estaciones, por ejemplo, coeficientes de calibración de rnolinetes y tablas de referencia para la radiación teórica
incidente y horas de insolación;
archivos cronológicos, que contienen series de observaciones realizadas en una estación hidrológica. Pueden ser series de
variables simples o múltiples y se pueden observar a intervalos regulares o irregulares.
Las relaciones entre estos distintos grupos de archivos se indican en la figura 24.2.
Desde el punto de vista de la organización, es posible combinar toda la información de los tipos b) y c) en archivos comunes o
separar cada tipo en archivos de uso corriente y archivos históricos. Esto permite dar a los archivos un formato y un tamaño
estándar. La estructura que se debe dar depende de la cantidad de datos descriptivos que se conservarán en los archivos
informáticos en comparación a los que deben estar en los archivos manuales.
Es útil examinar las distintas posibilidades disponibles para almacenar los diferentes tipos de series cronológicas en un mismo
archivo físico.
En el nivel más sencillo, a todas las estaciones se asignan sus propios archivos con datos ordenados secuencialmente en el
tiempo. Esta técnica es apropiada para grupos pequeños de datos o para mantener datos archivados en cintas. Sin embargo,
como las redes hidrológicas pueden contener diversos miles de estaciones de diversos tipos, este sistema simple se vuelve
extremadamente difícil de gestionar y mantener con grandes cantidades de archivos.
A un nivel superior, utilizado para la mayoría de los sistemas de base de datos hidrológicos, se emplean archivos
conteniendo muchas estaciones, cada uno de los cuales contiene datos de un tipo diferente. Pueden ser series
hidrológicas (valores de caudales diarios) o series cronológicas mixtas (diversas variables a intervalos fijos). En el primer
caso, un archivo de caudales diarios, por ejemplo, contendría todos los datos de caudales diarios, para el total de la red
hidrológica. El archivo si se organiza secuencialmente, estaría ordenado por estación y dentro de cada una de ellas, por
tiempo. En el segundo caso, todos los datos diarios estarían incluidos, sin importar el tipo hidrológico, y el archivo estaría
ordenado por tipo y numero de estación. Ambos casos se encuentran en el sistema Water Data Storage and Retrieval
(WATSTORE) (3), que comprende cinco archivos grandes. Uno contiene los datos de encabezamiento 8descripción9 de la
estación. De los otros cuatro, tres se agrupan por tipo hidrológico (calidad del agua, caudales máximos, inventario de los sitios
de medición de agua subterránea9 y el cuarto, como serie cronológica, es el archivo de valores diarios y en forma continua y
está reducido numéricamente a valores diarios. También es posible almacenar mediciones instantáneas a intervalos fijos,
valores medios diarios y estadísticas, tales como máximos y mínirnos diarios. En 1981 este archivo contenía 190 rnillones de
valores diarios sobre datos de caudales, los niveles de agua en ríos, volumen de embalses, temperaturas del agua,
conductividad eléctrica, concentraciones de sedimentos, caudales de sedimentos y niveles de aguas subterráneas
Al nivel de integración más alto (otro que no se base en la utilización de un DBMS) hay sistemas que procesan todo
tipo de series cronológicas en un solo formato de archivo y que almacenan todos los datos de estas series en un solo
archivo físico. Este enfoque, utilizado en el sistema TIDEDA de Nueva Zelandia [3], simplifica mucho el desarrollo de
programas informáticos para las tareas de gestión y consulta de datos puesto que el formato de almacenamiento es
estándar. Otros sistemas similares de procesamiento y almacenamiento que también son componentes ido y el HYDSYS
de Australia. Detalles del HOMS son el HYDATA del Reino Unido y el HYDSYS de Australia. Detalles sobre cómo son
tratados los datos en estos sistemas de procesamiento y almacenamiento figuran en la publicación de la OMM titulada
Guidelinesfor Computerized Data Processing in Operational Hydrology and Land and Water Management [2].
24.2.7
Extracción de datos de una sola variable
A veces, funciona mal el almacenamiento de series cronológicas múltiples debido al gran número de variables que se pueden
observar en cada lugar y la manera de extraer los datos.
Así, pues, los datos climatológicos que, luego de su uso inicial en el cálculo de la evapotranspiración potencia], pueden ser
consultados sólo para recuperar variables individuales. Estas consultas se requieren usualmente para la interpelación espacial
y/o la representación gráfica de datos, por ejemplo, datos de temperatura para cálculos de la fusión de la nieve o datos de
radiación para evaluar potenciales de producción de cosechas. El proceso de recuperación no funcionaría bien si se tendrían
que examinar todas las estaciones, incluso si la variable fue observada sólo en alguna de las estaciones.
Como se indicó en la sección 24.2.5, estos problemas pueden ser subsanados utilizando punteros de datos almacenados con
cada valor, que indican la ubicación de] registro que contiene el próximo valor para esa variable. Sin embargo, si esta técnica
se utiliza con muchas variables, tomaría mucho tiempo almacenar los punteros.
Una solución a este problema es eliminar las variables importantes (las que se utilizan frecuentemente en forma individual)
y almacenaras como series cronológicas de variables simples. Esta práctica es corriente para datos de precipitación observados
en estaciones climatológicas. La extracción de las variables importantes se efectúa mejor durante las actualizaciones anuales,
cuando los datos validados son transferidos al archivo histórico.
Cabe señalar que la decisión de realizar la extracción de variables simples depende de la frecuencia a la que se extrae: si la
extracción de valores para una variable específica es frecuente, se debería separar de un lote de variables múltiples. Mientras
menos estaciones contenga dicha variable observada, peor funcionará la búsqueda de variables múltiples, y se justificará
todavía más el formato de una sola variable.
Si se consultan datos de varias variables relacionadas con el mismo tiempo de observación, como sucede con los datos de
calidad de¡ agua, probablemente el formato original de variables múltiples se mantenga como el más conveniente.
24.2.8
Almacenamiento de datos en línea y fuera de línea
El almacenamiento de datos en línea y el acceso interactivo a ellos se utilizan cada vez más gracias a los avances en las
técnicas de almacenamiento en discos magnéticos y a los progresos en las comunicaciones. Los datos siempre se pueden
revisar, editar, consultar y analizar y las diversas posibilidades de organización de archivos permiten utilizar los métodos más
rápidos de acceso a los datos. Sin embargo, el almacenamiento en discos duros es costoso y representa con frecuencia la parte
más importante en la compra de una computadora. Esta inversión debe ser justificada en términos de necesidades operativas
de las tareas de procesamiento y los propósitos para los cuales se recolectan los datos.
Las operaciones hidrológicas en tiempo real exigen el uso de datos en línea y, puesto que los requerimientos de
almacenamiento son generalmente bajos, pueden ser satisfechas fácil y económicamente.
Los sistemas de investigación y de análisis no tienen las mismas necesidades operativas, pero como no requieren mucho
espacio en la memoria, el almacenamiento de todos los grupos de datos importantes en general se puede hacer en línea y a bajo
costo. Una excepción a este caso es el sistema que maneja datos de teledetección o de mapas digitalizados, en los que las
enormes cantidades de datos requieren un uso extensivo de almacenamiento fuera de línea.
Los sistemas de inventarios hidrológicos tienen necesidades de memoria que no son excesivas en un sentido técnico, pero el
almacenamiento en línea no se puede justificar económicamente porque los datos no se recopilan para aplicaciones en tiempo
real (planificación y diseño). Los datos pueden mantenerse fuera de línea mucho más económicamente pero se debe añadir
un costo de tiempo adicional (minutos u horas) necesario para traerlos a la línea cuando se requieren. Esta demora
suplementaria no es significativa en los sistemas de inventarios.
El almacenamiento de datos fuera de línea se realiza normalmente en cintas magnéticas, así como en discos removibles. En
las microcomputadoras, el almacenamiento fuera de línea se realiza en cassettes, diskettes y cartuchos de cintas de alta
densidad. Se observa un uso creciente de discos CD-ROM como sistema de almacenamiento de datos fuera de línea.
Una revisión de numerosos sistemas hidrológicos existentes indica que se dispone de memoria para el almacenamiento
permanente en línea de los siguientes grupos de datos:
a) lotes de datos actuales que esperan edición y/o procesamiento primario - Esto incluye los lotes de datos mensuales y el
archivo de trabajo anual indicados en la figura 24. l. El acceso en línea a estos grupos de datos es particularmente útil para
hacer limitadas ediciones de los datos. Si existe un sistema central encargado de la validación y el procesamiento primario,
estos grupos de datos deben ser protegidos para que los usuarios no puedan acceder a ellos antes de su validación y
actualización;
b) un período reciente de la base de datos hidrológica principal - Esto puede comprender los últimos dos o tres años de datos
con control de calidad. A medida que se procesan nuevos lotes, como se indica en el apartado a) anterior, los lotes más viejos
son transferidos a la base de datos principal, que se mantiene en cinta fuera de línea. Algunos sistemas incluyen el archivo de
trabajo anual a) anterior, en particular si son los usuarios los encargados de la validación y la edición de los datos;
c) un catálogo o índice de todos los datos disponibles mantenidos en línea y fuera de línea - Donde existen estos catálogos han
probado ser muy valiosos para ayudar a los usuarios a definir sus necesidades de consulta de datos. Estos catálogos pueden ser
publicados periódicamente para mayor difusión. Una forma sencilla de catálogo se puede producir resumiendo las principales
informaciones de los archivos descriptivos de las estaciones;
d) archivos de trabajo profesionales creados por los usuarios para sus aplicaciones específicas - Estos grupos de datos en
general se extraen de la base de datos y se duplican en otro soporte inforinático. Cabe señalar que uno de los principales
objetivos de un DBMS es eliminar dichas duplicaciones.
El espacio ocupado por los grupos de datos anteriores sólo constituye una parte de la capacidad de almacenamiento en línea;
ésta admite además el espacio para programas de sistema y de usuarios y el espacio de trabajo provisional. En algunos
sistemas, estos últimos pueden ser muy importantes.
El almacenamiento de grupos de datos fuera de línea incluye:
a)
copias de datos primarios ingresados al sistema, por ejemplo valores de¡ nivel de agua medidas a un ritmo de 15 minutos
y coordenadas cartesianas (x, y) de un gráfico de precipitación digitalizado automáticamente. Se deben tomar dos
decisiones optativas con relación a estos datos:
i)
las series de datos registrados a intervalos de tiempo corto se deben agrupar en series a intervalos fijos o
comprimir utilizando alguna de las técnicas descritas en la sección 24.2.4. En general, este agrupamiento o
compresión se realiza a pesar de la pérdida de información que ocasionalmente ocurre. Esta pérdida de
información no es grave si se conservan los registros de datos originales;
ii)
se deben guardar los datos corregidos o los originales, esto es, los datos de terreno originales o copias de los
grupos de datos corregidos. Normalmente se adopta esta última solución y los datos originales de terreno,
b)
c)
24.3
gráficos (o microfichas), cintas perforadas o cassettes, se guardan por separado con fines de archivo o de
referencia;
los archivos principales de la base de datos, excepto el período más reciente que se mantiene en línea. Los archivos
pequeños y medianos se almacenan en volúmenes separados de archivo o se combinan en un volumen (volumen
multiarchivo). Los archivos muy grandes (como el archivo de valores diarios del U.S. Geological Survey) pueden ocupar
varios volúmenes (archivo multivolumen);
copias de seguridad de todos los datos conservados en línea o fuera de línea.
La disposición de estos distintos grupos de datos en línea y fuera de línea se resume en el diagrama de la figura 24.3.
Recuperación de datos
La recuperación de datos se estudia en detalle en la publicación de la OMM titulada Guidelines to Computerized Data
Processing in Operational Hydrology and Land and Water Management [2]. La posibilidad de recuperar rápidamente grupos
de datos seleccionados es una de las ventajas fundamentales de] procesamiento electrónico de datos hidrológicos. Un sistema
eficiente de recuperación de datos permite al hidrólogo o al planificador de recursos hídricos dedicarse al análisis de datos en
el tiempo en ubicar, comparar y procesar manualmente los datos.
Un sistema completo de extracción de datos debe tener las siguientes características:
a)
una gran variedad de criterios de selección de datos. En general, se selecciona por tipo de variable, cuenca, estación,
período y valor (o rango) de la variable. En particular debería ser posible seleccionar datos en base a cualquier
combinación de estos criterios;
interpolación/agrupamiento de datos en tiempo y espacio. Quizá las más importante de estas opciones sea la
b)
interpelación de series cronológicas irregulares en series a intervalos regulares y el agrupamiento de series cronológicas de
corto intervalo en totales o promedios de base de más largo tiempo (esto es, la conversión de valores horarios a diarios o de
diarios a valores de diez días). Si se utiliza un sistema de referencia geográfica hidrológica, se pueden hacer también ajustes
espaciales de los datos;
c) cálculo de estadísticas elementales. Se deben poder calcular las estadísticas elementales para los período(s) seleccionados
de registros. Esto incluiría los totales (si son pertinentes), los promedios, los desvíos tipo y los rangos. El sistema estándar de
extracción de datos puede ofrecer estadísticas más complejas, como las correlaciones cruzadas, las regresiones múltiples, el
análisis de probabilidad. También es posible transferir los datos seleccionados a un programa estadístico (o programa de
usuario) como se describe más adelante;
d) selección del formato de salida. Esta característica debería permitir la salida de datos directamente en forma de tablas o de
gráficos y la creación de archivos de datos en formatos compatibles a un procesamiento posterior. En este último caso,
los grupos de datos recuperados pueden almacenarse como entrada para aplicaciones estadísticas o programas de
aplicación específicos del usuario. Un formato de salida particular puede ser adecuado para el intercambio de datos
hidrológicos a nivel nacional o internacional;
e)
selección del dispositivo de salida. Debería haber una amplia flexibilidad en la elección del dispositivo de salida. Como
mínimo, éste debería incluir una impresora, una unidad de presentación visual (VDU), un archivo disco y si es posible,
un trazador de gráficos. Los datos que se deben copiar en cinta o disco flexible normalmente se graban antes en el disco
duro y se transfieren con un programa separado que requiere varias variables especificadas por el usuario.
Es importante que los datos recuperados, en particular los destinados a salidas
impresas en forma de tablas, mantengan sus códigos y distintivos referentes a su estado y fiabilidad (sección 22.3). El
usuario debería disponer de información de base relativa a la fiabilidad general de los datos y/o a su no fiabilidad durante
ciertos períodos mediante el archivo de descripción de la estación (sección 21.2) o los catálogos de datos.
La recuperación de datos puede hacerse de tres maneras:
a)
extracciones periódicas de datos - Son resúmenes y estadísticas de datos de la estación producidos mensual o
anualmente;
b)
extracciones según las necesidades del usuario - Después de consultar anuarios hidrológicos o catálogos de datos, los
usuarios pueden solicitar una consulta de datos mediante un formulario especial y la extracción es tramitada como una
tarea de lotes normal. Así, se debe contar con operadores de computadoras u otros técnicos para que ingresen la solicitud
utilizando el programa de extracción de datos. El formulario de solicitud de extracción debe permitir una amplia
variedad en la selección del soporte de salida;
c)
extracciones de datos en línea (interactivas) - Hay varios modos de especificaciones de consultas en línea que, por sus
amplias potencialidades de uso, se examinan más adelante.
Como se observó anteriormente en este capítulo y sobre todo en la figura 24.3,
la existencia de una base de datos principal en línea permite la extracción interactiva de los datos. Sin embargo, salvo para
sistemas con pequeñas cantidades de datos o capacidades de almacenamiento en disco muy grandes, la mayor parte de la base
de datos debe almacenarse fuera de línea. Así, el modo interactivo directo es apropiado sólo para consultar cantidades
limitadas de los datos más recientes. En algunos sistemas, usuarios lejanos pueden enviar mensajes a los operadores de las
computadoras para pedir el acceso a un volumen específico de la base de datos fuera de línea.
Sin ernbargo, estos pedidos son muy pocas veces satisfechos inmediatamente. Esta técnica puede incluso convertirse en una
tarea muy pesada en términos de utilización de los terminales y de los costos de comunicaciones.
Probablemente el medio más eficiente de especificación para consultas es el proceso en dos etapas. El la primera etapa, un
programa interactivo permite al usuario especificar los valores que necesita y en la segunda etapa este pedido se procesa
automáticamente como una tarea secuencial, y la salida se hace más tarde.
El formato de un interfaz interactivo de máquina/usuario se llama “ sistema de menú”. La ejecución de recolecciones extensas
en modo secuencial es mucho más eficiente en cuanto a la capacidad de la computadora de asignar sus recursos, sobre todo
para la extracción de datos de volúmenes fuera de línea.
La cuestión anterior se refiere principalmente a extracciones en línea de datos de sistemas de inventarios hidrológicos. Sin
embargo, la capacidad de revisar los datos que se capturan y se almacenan en sistema de tiempo real es quizás un
requerimiento más importante. Las opciones de extracción varían desde la conexión telemétrica de estaciones de campo
individuales o por grupos hasta el trazado y muestreo de los datos capturados recientemente y los pronósticos más recientes
del centro de procesamiento.
Referencias
.
l.
Organización Meteorológica Mundial, 1983: Guía de prácticas climatológicas. Segunda edición, OMM-N- 1001
Ginebra.
2. Organización Meteorológica Mundial/Organización de las Naciones Unidas para la Agricultura y la Alirnentación, 1985:
Guidelines for Computerized Data Processing in Operational Hydrology and Land and Water Management. OMM-No.634,
Ginebra.
3. Organización Meteorológica Mundial, 1981- Case Studies of National Hydrological Data Banks (Planning, Development
and Organization). Informe de hidrología operativa No.17, OMM-No. 576. Ginebra.
Descargar