Integración de datos espaciales de dos dimensiones en la construcción de hipercubos dentro del procesamiento analítico en línea Carlos Fernando Ruiz Chávez Introducción El descubrimiento de conocimiento en las bases de datos demuestra ser una de las herramientas que impacta en el desarrollo de sistemas de información, debido a su capacidad de encontrar nueva información en las bases de datos para transformarla a la postre en conocimiento. Por su parte, la minería de datos como componente de este proceso de descubrimiento, busca identificar patrones invisibles entre los registros de una base de datos. Dentro de la minería de datos, el procesamiento analítico en línea es una herramienta que permite a los analistas la consulta de grandes volúmenes de datos que provienen de diversas fuentes heterogéneas y que se integran en un mismo sitio que se llama almacén de datos o data warehouse, mediante la construcción y la manipulación de cubos multidimensionales o hipercubos. Los datos espaciales son aquellos que además de tener un valor determinado, cuentan con una localización de la realidad a la que representan en un sistema de referencia terrestre. En la actualidad, el procesamiento analítico en línea maneja esta localización de manera indirecta, al hacer uso de alguno de los atributos cualitativos de los datos. Se busca que las operaciones básicas que realiza un hipercubo, tales como la consolidación o roll-up, la desagregación o drill-down y el filtrado o slice and dice, se realicen sobre esta dimensión espacial con la finalidad de que forme parte del análisis de información, lo que implica la aplicación de funciones de 1 geoprocesamiento así como el uso de predicados topológicos para el manejo de las relaciones espaciales que existan entre los datos. Planteamiento del Problema La minería de datos como una parte del proceso de descubrimiento de conocimiento en bases de datos, cuenta con un conjunto de diversas técnicas que se aplican para encontrar determinados patrones en el conjunto de datos. Estos patrones no deben ser producto de la casualidad o de anomalías, sino que deben ser válidos y relevantes. Este conjunto de técnicas establecen restricciones sobre el dominio de los datos que pueden procesar. Mientras unas técnicas requieren que sus valores sean discretos para evitar la explosión combinatoria, otras requieren que las clases pertenezcan a un conjunto de valores binarios para la construcción de clasificadores de manera automatizada. Por su parte, los datos espaciales involucran una serie de restricciones particulares que dificultan el análisis de este tipo de datos. Una de las mayores restricciones corresponde a la homogeneidad requerida en el sistema de coordenadas terrestre con el cual los datos han sido referidos sobre la superficie terrestre. Otro punto a considerar es la homogeneidad en la escala cartográfica con la que los datos fueron generados, esto porque el valor de la escala define la relación que existe entre el punto o la superficie real y su representación. La fuente de los datos espaciales debe tomarse en cuenta debido a las diferencias que existen en la precisión o exactitud posicional tanto de los métodos de generación directos tales como los sistemas de posicionamiento global, así como de los métodos de generación indirectos como la percepción remota. 2 En este sentido, la integración de los conjuntos de datos provenientes de fuentes heterogéneas en el data warehouse debe considerar estas restricciones para que el cuerpo de datos tenga la misma calidad espacial y que todos sus elementos sean comparables entre sí. Si bien, el proceso analítico en línea hace uso de la caracterización así como de la discriminación de datos mediante funciones de agregado, se requiere de operaciones especiales conocidas como geoprocesamiento para realizar estas tareas. Lo anterior implica que el proceso analítico en línea debe tener la capacidad de procesar datos cualitativos, cuantitativos y espaciales de manera específica de acuerdo al dominio al que pertenezca el dato, y hacerlo de una manera transparente tanto para el analista de información como para el tomador de decisiones. La visualización de los resultados del procesamiento de datos espaciales es otro aspecto a considerar, debido a que su presentación es por completo diferente a la presentación de datos cualitativos o cuantitativos. Ante estas restricciones, adecuaciones y consideraciones surge la pregunta: ¿Cómo incorporar el dominio de datos espaciales al procesamiento analítico en línea? Revisión de la literatura La minería de datos forma parte del proceso de descubrimiento de conocimiento en bases de datos compuestas por un gran cúmulo de datos que bien pueden referirse a las ventas de una empresa, a las respuestas de las encuestas en el censo de población o a las lecturas de los sensores de temperatura en estaciones de monitoreo distribuidas. 3 El descubrimiento del conocimiento en estas bases de datos, es un proceso de alto nivel en el que a partir de la evidencia que se obtiene por las diferentes técnicas de minería de datos, se formulan ideas, creencias e hipótesis sobre el universo que describen (Miller & Han, 2009). En las últimas dos décadas, la referenciación sobre la superficie terrestre de la información que se genera tanto por fenómenos naturales como por fenómenos originados por la acción directa del ser humano, tiene una mayor importancia para analizarse y así entender sus causas y sus efectos en periodos de tiempo diferentes. Tecnologías como los sistemas de posicionamiento global, generan un gran volumen de datos espaciales, lo que permite que este tipo de datos transite de un estado previo de carestía hacia un estado de abundancia (Miller & Han, 2009). Este cúmulo de datos debe concentrarse en un lugar independiente de los sistemas transaccionales en donde se generan o se integran, de manera estructurada y optimizada para su consulta y análisis; a este lugar se le conoce como almacén de datos. Un almacén de datos o data warehouse, se considera como una colección de datos que se encuentra orientada a temas, integrada, no volátil y variante en el tiempo, utilizada para la toma de decisiones dentro de las organizaciones (Inmon, 1992). Sobre este almacén de datos, se realiza el procesamiento analítico en línea para su análisis de manera interactiva (Fayyad, 1996). En el procesamiento analítico en línea, se realizan ciertas operaciones sobre las dimensiones de los datos, como la consolidación o incremento en el nivel de agregación, la desagregación o decremento en el nivel de agregación, la selección y proyección, así como el cambio en las vistas multidimensionales de los datos. 4 Lo anterior implica que todo el conjunto de datos almacenados forma un espacio n-dimensional y que el análisis mediante este procesamiento es nada menos que la observación de un sub-espacio de dicho espacio n-dimensional. Una de las principales técnicas para lograr estas observaciones es la reducción dimensional de los datos (Gray, 1997). Como base del procesamiento analítico en línea se encuentra la construcción de cubos de datos, estructuras multidimensionales dentro del espacio n-dimensional. Cada una de las dimensiones del cubo es uno de los atributos sobre los cuales se aplica una de las operaciones de agregación, como lo es el conteo, la sumatoria y el promedio, entre otras. La minería de datos espaciales se realiza sobre almacenes de datos que tengan la capacidad de almacenar y procesar este tipo en particular de datos. Existen en la actualidad retos con respecto a los temas de investigación referentes al descubrimiento de conocimiento con almacenes de datos espaciales (Han & Kamber, 2011). A saber, uno de estos retos es la adaptación de los cubos de datos para que consideren la dimensión espacial, esto es, que sobre el atributo que corresponde a la geometría, se realicen operaciones de consolidación, desagregación, selección y proyección en el procesamiento analítico en línea. Existen relaciones entre los valores de cada dimensión, relaciones entre un conjunto de valores que representan conceptos de bajo nivel o de mayor detalle y otro conjunto de valores que representan conceptos de alto nivel o más generales. Estas relaciones son conocidas como jerarquías conceptuales (Han & Kamber, 2011). 5 Entre los datos espaciales se presentan jerarquías conceptuales sobre el atributo que corresponde a la geometría debido a las relaciones espaciales que existen entre ellos, por lo que es necesario de una herramienta que permita conocer este tipo de relaciones, en este caso, el modelo DE-9IM. El modelo dimensional de nueve intersecciones extendido, conocido como DE9IM, se utiliza para la construcción de una matriz con las intersecciones entre dos objetos espaciales y así obtener las relaciones espaciales que existen entre ambos objetos (Clementini, 1996). Objetivos • La integración de los datos espaciales en la construcción de los cubos de datos dentro del procesamiento analítico en línea, requiere el aplicar funciones de geoprocesamiento como extensión de sus funciones de agregación, filtrado y rotación. • Una vez aplicadas las funciones de geoprocesamiento al proceso analítico en línea, se busca establecer las bases para el desarrollo de aplicaciones basadas en procesamiento analítico espacial en línea. Método Debido a que en la revisión de la literatura no se aborda el procesamiento analítico en línea para datos espaciales, sino que se hace referencia a las posibilidades que tiene la aplicación de las técnicas de la minería de datos a los datos espaciales, se propone que el método de investigación sea inicialmente exploratorio. Procedimiento 6 • Se investigará sobre los conceptos del funcionamiento del procesamiento analítico en línea, así como la revisión de aplicaciones comerciales y de código abierto, que trabajen con este tipo de procesos. • Se realizará un análisis del modelo dimensional de nueve intersecciones extendido, DE-9IM, para entender los tipos de relaciones espaciales que se obtienen entre dos datos mediante sus atributos geométricos. • Se investigará sobre la aplicación del modelo DE-9IM al funcionamiento del procesamiento analítico en línea, para establecer las operaciones de geoprocesamiento requeridas como funciones distributivas, algebraicas y holísticas de agregación, en el análisis de datos espaciales. • Finalmente, se establecerán las bases, requerimientos y lineamientos para el procesamiento analítico espacial en línea, así como las restricciones en el análisis de este tipo de datos. Cronograma ACTIVIDAD AGO SEP OCT NOV DIC Investigación del funcionamiento de OLAP Revisión de aplicaciones OLAP Análisis del modelo DE-9IM Aplicación del modelo DE-9IM en OLAP Establecer las bases para SOLAP Tabla 1: Cronograma de actividades 7 Al finalizar este trabajo de investigación, se habrán establecido las bases para lograr la incorporación de los datos espaciales en el procesamiento analítico en línea. Esta adecuación perimitirá el desarrollo de aplicaciones que analicen las dimensiones cuantitativas, cualitativas y espaciales de los datos contenidos en data warehouses en los gobiernos, la academia y la iniciativa privada. Bibliografía 1. Inmon, W., (1992). “Building the Data Warehouse”. John Wiley. 2. Clementini, E., Sharma, J., & Egenhofer, M., (1994). "Modelling topological spatial relations: Strategies for query processing". Computers & Graphics. 3. Fayyad, W., Piatesky-Shappiro, G., & Smyth, P., (1996). “From Data Mining to Knowledge Discovery in Databases”. AI Magazine. Vol. 17, Number 13. 4. Chaudhuri, S., & Dayal, U., (1997). “An Overview of Data Warehousing and OLAP Technology”. 5. Gray, J., Chaudhuri, S., Bosworth, A., Layman, A., Reichart, D., & Vekatrao, M. (1997). “Data cube: A Relational aggregation Operator Generalizing Group-By, Cross-Tab, and Sub-Totals”. Data Mining and Knowledge Discovery Journal. Vol. 1, Number 1. 6. Clementini, E., & Di Felice, P., (1997). “Model for Representing Topological Relationships between Complex Geometric Features in Spatial Databases”. Information Sciencies. 7. Miller, H., & Han J., (2009). “Geographic Data Mining and Knowledge Discovery: An Overview”. 8. Jiawei, H., Micheline, K., & Jian, P., (2011). Data Mining Concepts and Techniques. Morgan Kaufmann. ISBN 1-55860-901-6. 8