procesamiento y análisis big data mediante la migración de datos a

Anuncio
PROCESAMIENTO Y ANÁLISIS BIG DATA MEDIANTE LA MIGRACIÓN DE
DATOS A UN ESQUEMA DE BASE DE DATOS NOSQL
Marian Andrea Valero Pérez
Mary Carlota Bernal Jiménez
Dahyana Carolina Nimo Parra
Marcel Mauricio Molina Monsalve
marian.valero@unet.edu.ve
mbernal@unet.edu.ve
dnimo@unet.edu.ve
mmolina@unet.edu.ve
Laboratorio de Investigación y Desarrollo en Informática. Decanato de Investigación
Universidad Nacional Experimental del Táchira
Av. Universidad, Sector Paramillo, San Cristóbal - Venezuela
Resumen. En el mundo de las bases de datos día a día aumenta la cantidad de datos almacenados
casi de forma exponencial, por lo tanto es necesario analizarlos y explotarlos de manera eficaz
para así poder descubrir factores que contribuyan a mejorar el funcionamiento de cualquier
organización. Hoy en día la creciente cantidad de información que se intenta manejar supera la
infraestructura existente, lo cual hace necesario la adopción de esquemas que permitan operar los
datos de una manera eficiente permitiendo la escalabilidad en los mismos. Este trabajo tiene como
propósito plantear un esquema de migración de datos, donde los millones de datos que se
encuentran almacenados en una base de datos relacional, sean procesados por un motor de base de
datos NoSQL, mejorando así los tiempos de respuesta en la consulta de los datos, debido al gran
volumen de datos que se genera a diario en la base de datos de estudio y a la estructura adoptada
por la base de datos relacional bajo la cual se encuentra implementada. El uso de una arquitectura
distribuida para la base de datos NoSQL, permite especializar la búsqueda avanzada recuperando
la data de sus nodos de forma rápida y en tiempo real, lo que contribuye a un procesamiento de la
data histórica sin afectar la operatividad de los sistemas que se encargan de manejar las
transacciones diarias. Este trabajo plantea una estrategia de migración que permita el análisis y
procesamiento de datos en tiempo real basados en un entorno NoSQL, para esto se programó la
utilización de técnicas que permitieron conocer las estructuras de las bases de datos involucradas,
familiarizarse con los datos y su distribución, considerar aquellos datos que requieren atención
especial y aquellos que en adelante no resultarían indispensables, todo esto enmarcado en técnicas
de pre procesamiento de datos y siguiendo las fases de: planificación, contador de registros,
mapeador de tipos de datos, definición de restricciones, codificación de caracteres, desarrollo de
pruebas, implementación y monitoreo para la tarea de migración. Este proceso fue realizado
tomando en cuenta los métodos sugeridos por el teorema CAP (consistencia, disponibilidad y
tolerancia a particiones) para entornos distribuidos, en el cual las características externas
configuradas para la base de datos NoSQL establecida, contribuyen a asegurar la calidad de los
datos migrados y operados. Dentro de este estudio se consiguió un modelado no relacional
haciendo uso de técnicas de agregados, donde se minimizan relaciones, enfocándose en un mapeo
de los datos que almacena la data bajo los criterios necesarios de análisis para la toma de
decisiones. Con la ejecución y uso de esta técnica de migración se puede alcanzar lo deseado en
cuanto a la identificación de los factores que deben ser considerados al momento de realizar una
migración de este tipo, así como conseguir rápidos tiempos de respuesta al ejecutar un análisis
sobre los datos, mediante el uso de estas tecnologías no relacionales.
Palabras claves: Base de Datos, NoSQL, Migración, Elasticsearch.
Descargar