Integración de datos espaciales de dos dimensiones en la

Anuncio
Integración de datos espaciales de dos dimensiones en la
construcción de hipercubos dentro del procesamiento analítico
en línea
Carlos Fernando Ruiz Chávez
Introducción
El descubrimiento de conocimiento en las bases de datos demuestra ser una de
las herramientas que impacta en el desarrollo de sistemas de información, debido
a su capacidad de encontrar nueva información en las bases de datos para
transformarla a la postre en conocimiento. Por su parte, la minería de datos como
componente de este proceso de descubrimiento, busca identificar patrones
invisibles entre los registros de una base de datos.
Dentro de la minería de datos, el procesamiento analítico en línea es una
herramienta que permite a los analistas la consulta de grandes volúmenes de
datos que provienen de diversas fuentes heterogéneas y que se integran en un
mismo sitio que se llama almacén de datos o data warehouse, mediante la
construcción y la manipulación de cubos multidimensionales o hipercubos.
Los datos espaciales son aquellos que además de tener un valor determinado,
cuentan con una localización de la realidad a la que representan en un sistema de
referencia terrestre. En la actualidad, el procesamiento analítico en línea maneja
esta localización de manera indirecta, al hacer uso de alguno de los atributos
cualitativos de los datos.
Se busca que las operaciones básicas que realiza un hipercubo, tales como la
consolidación o roll-up, la desagregación o drill-down y el filtrado o slice and dice,
se realicen sobre esta dimensión espacial con la finalidad de que forme parte del
análisis de información, lo que implica la aplicación de funciones de
1
geoprocesamiento así como el uso de predicados topológicos para el manejo de
las relaciones espaciales que existan entre los datos.
Planteamiento del Problema
La minería de datos como una parte del proceso de descubrimiento de
conocimiento en bases de datos, cuenta con un conjunto de diversas técnicas que
se aplican para encontrar determinados patrones en el conjunto de datos. Estos
patrones no deben ser producto de la casualidad o de anomalías, sino que deben
ser válidos y relevantes.
Este conjunto de técnicas establecen restricciones sobre el dominio de los datos
que pueden procesar. Mientras unas técnicas requieren que sus valores sean
discretos para evitar la explosión combinatoria, otras requieren que las clases
pertenezcan a un conjunto de valores binarios para la construcción de
clasificadores de manera automatizada.
Por su parte, los datos espaciales involucran una serie de restricciones
particulares que dificultan el análisis de este tipo de datos. Una de las mayores
restricciones corresponde a la homogeneidad requerida en el sistema de
coordenadas terrestre con el cual los datos han sido referidos sobre la superficie
terrestre.
Otro punto a considerar es la homogeneidad en la escala cartográfica con la que
los datos fueron generados, esto porque el valor de la escala define la relación
que existe entre el punto o la superficie real y su representación. La fuente de los
datos espaciales debe tomarse en cuenta debido a las diferencias que existen en
la precisión o exactitud posicional tanto de los métodos de generación directos
tales como los sistemas de posicionamiento global, así como de los métodos de
generación indirectos como la percepción remota.
2
En este sentido, la integración de los conjuntos de datos provenientes de fuentes
heterogéneas en el data warehouse debe considerar estas restricciones para que
el cuerpo de datos tenga la misma calidad espacial y que todos sus elementos
sean comparables entre sí. Si bien, el proceso analítico en línea hace uso de la
caracterización así como de la discriminación de datos mediante funciones de
agregado,
se
requiere
de
operaciones
especiales
conocidas
como
geoprocesamiento para realizar estas tareas.
Lo anterior implica que el proceso analítico en línea debe tener la capacidad de
procesar datos cualitativos, cuantitativos y espaciales de manera específica de
acuerdo al dominio al que pertenezca el dato, y hacerlo de una manera
transparente tanto para el analista de información como para el tomador de
decisiones.
La visualización de los resultados del procesamiento de datos espaciales es otro
aspecto a considerar, debido a que su presentación es por completo diferente a la
presentación de datos cualitativos o cuantitativos. Ante estas restricciones,
adecuaciones y consideraciones surge la pregunta: ¿Cómo incorporar el dominio
de datos espaciales al procesamiento analítico en línea?
Revisión de la literatura
La minería de datos forma parte del proceso de descubrimiento de conocimiento
en bases de datos compuestas por un gran cúmulo de datos que bien pueden
referirse a las ventas de una empresa, a las respuestas de las encuestas en el
censo de población o a las lecturas de los sensores de temperatura en estaciones
de monitoreo distribuidas.
3
El descubrimiento del conocimiento en estas bases de datos, es un proceso de
alto nivel en el que a partir de la evidencia que se obtiene por las diferentes
técnicas de minería de datos, se formulan ideas, creencias e hipótesis sobre el
universo que describen (Miller & Han, 2009).
En las últimas dos décadas, la referenciación sobre la superficie terrestre de la
información que se genera tanto por fenómenos naturales como por fenómenos
originados por la acción directa del ser humano, tiene una mayor importancia para
analizarse y así entender sus causas y sus efectos en periodos de tiempo
diferentes.
Tecnologías como los sistemas de posicionamiento global, generan un gran
volumen de datos espaciales, lo que permite que este tipo de datos transite de un
estado previo de carestía hacia un estado de abundancia (Miller & Han, 2009).
Este cúmulo de datos debe concentrarse en un lugar independiente de los
sistemas transaccionales en donde se generan o se integran, de manera
estructurada y optimizada para su consulta y análisis; a este lugar se le conoce
como almacén de datos.
Un almacén de datos o data warehouse, se considera como una colección de
datos que se encuentra orientada a temas, integrada, no volátil y variante en el
tiempo, utilizada para la toma de decisiones dentro de las organizaciones (Inmon,
1992). Sobre este almacén de datos, se realiza el procesamiento analítico en línea
para su análisis de manera interactiva (Fayyad, 1996).
En el procesamiento analítico en línea, se realizan ciertas operaciones sobre las
dimensiones de los datos, como la consolidación o incremento en el nivel de
agregación, la desagregación o decremento en el nivel de agregación, la selección
y proyección, así como el cambio en las vistas multidimensionales de los datos.
4
Lo anterior implica que todo el conjunto de datos almacenados forma un espacio
n-dimensional y que el análisis mediante este procesamiento es nada menos que
la observación de un sub-espacio de dicho espacio n-dimensional. Una de las
principales técnicas para lograr estas observaciones es la reducción dimensional
de los datos (Gray, 1997).
Como base del procesamiento analítico en línea se encuentra la construcción de
cubos de datos, estructuras multidimensionales dentro del espacio n-dimensional.
Cada una de las dimensiones del cubo es uno de los atributos sobre los cuales se
aplica una de las operaciones de agregación, como lo es el conteo, la sumatoria y
el promedio, entre otras.
La minería de datos espaciales se realiza sobre almacenes de datos que tengan la
capacidad de almacenar y procesar este tipo en particular de datos. Existen en la
actualidad retos con respecto a los temas de investigación referentes al
descubrimiento de conocimiento con almacenes de datos espaciales (Han &
Kamber, 2011).
A saber, uno de estos retos es la adaptación de los cubos de datos para que
consideren la dimensión espacial, esto es, que sobre el atributo que corresponde a
la geometría, se realicen operaciones de consolidación, desagregación, selección
y proyección en el procesamiento analítico en línea.
Existen relaciones entre los valores de cada dimensión, relaciones entre un
conjunto de valores que representan conceptos de bajo nivel o de mayor detalle y
otro conjunto de valores que representan conceptos de alto nivel o más generales.
Estas relaciones son conocidas como jerarquías conceptuales (Han & Kamber,
2011).
5
Entre los datos espaciales se presentan jerarquías conceptuales sobre el atributo
que corresponde a la geometría debido a las relaciones espaciales que existen
entre ellos, por lo que es necesario de una herramienta que permita conocer este
tipo de relaciones, en este caso, el modelo DE-9IM.
El modelo dimensional de nueve intersecciones extendido, conocido como DE9IM, se utiliza para la construcción de una matriz con las intersecciones entre dos
objetos espaciales y así obtener las relaciones espaciales que existen entre
ambos objetos (Clementini, 1996).
Objetivos
•
La integración de los datos espaciales en la construcción de los cubos de datos
dentro del procesamiento analítico en línea, requiere el aplicar funciones de
geoprocesamiento como extensión de sus funciones de agregación, filtrado y
rotación.
•
Una vez aplicadas las funciones de geoprocesamiento al proceso analítico en
línea, se busca establecer las bases para el desarrollo de aplicaciones
basadas en procesamiento analítico espacial en línea.
Método
Debido a que en la revisión de la literatura no se aborda el procesamiento analítico
en línea para datos espaciales, sino que se hace referencia a las posibilidades que
tiene la aplicación de las técnicas de la minería de datos a los datos espaciales, se
propone que el método de investigación sea inicialmente exploratorio.
Procedimiento
6
•
Se investigará sobre los conceptos del funcionamiento del procesamiento
analítico en línea, así como la revisión de aplicaciones comerciales y de código
abierto, que trabajen con este tipo de procesos.
•
Se realizará un análisis del modelo dimensional de nueve intersecciones
extendido, DE-9IM, para entender los tipos de relaciones espaciales que se
obtienen entre dos datos mediante sus atributos geométricos.
•
Se investigará sobre la aplicación del modelo DE-9IM al funcionamiento del
procesamiento analítico en línea, para establecer las operaciones de
geoprocesamiento requeridas como funciones distributivas, algebraicas y
holísticas de agregación, en el análisis de datos espaciales.
•
Finalmente, se establecerán las bases, requerimientos y lineamientos para el
procesamiento analítico espacial en línea, así como las restricciones en el
análisis de este tipo de datos.
Cronograma
ACTIVIDAD
AGO
SEP
OCT
NOV
DIC
Investigación del funcionamiento de OLAP
Revisión de aplicaciones OLAP
Análisis del modelo DE-9IM
Aplicación del modelo DE-9IM en OLAP
Establecer las bases para SOLAP
Tabla 1: Cronograma de actividades
7
Al finalizar este trabajo de investigación, se habrán establecido las bases para
lograr la incorporación de los datos espaciales en el procesamiento analítico en
línea.
Esta adecuación perimitirá el desarrollo de aplicaciones que analicen las
dimensiones cuantitativas, cualitativas y espaciales de los datos contenidos en
data warehouses en los gobiernos, la academia y la iniciativa privada.
Bibliografía
1. Inmon, W., (1992). “Building the Data Warehouse”. John Wiley.
2. Clementini, E., Sharma, J., & Egenhofer, M., (1994). "Modelling topological
spatial relations: Strategies for query processing". Computers & Graphics.
3. Fayyad, W., Piatesky-Shappiro, G., & Smyth, P., (1996). “From Data Mining
to Knowledge Discovery in Databases”. AI Magazine. Vol. 17, Number 13.
4. Chaudhuri, S., & Dayal, U., (1997). “An Overview of Data Warehousing and
OLAP Technology”.
5. Gray, J., Chaudhuri, S., Bosworth, A., Layman, A., Reichart, D., & Vekatrao,
M. (1997). “Data cube: A Relational aggregation Operator Generalizing
Group-By, Cross-Tab, and Sub-Totals”. Data Mining and Knowledge
Discovery Journal. Vol. 1, Number 1.
6. Clementini, E., & Di Felice, P., (1997). “Model for Representing Topological
Relationships between Complex Geometric Features in Spatial Databases”.
Information Sciencies.
7. Miller, H., & Han J., (2009). “Geographic Data Mining and Knowledge
Discovery: An Overview”.
8. Jiawei, H., Micheline, K., & Jian, P., (2011). Data Mining Concepts and
Techniques. Morgan Kaufmann. ISBN 1-55860-901-6.
8
Descargar