Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) j c a m a r g o @ b i g d a t a s o l u B o n s . c o Cámara de Comercio de Bogotá – Centro Empresarial Chapinero XXXIII Salón de Informática ACIS Agenda • • • • • • • Introducción Bases de datos NoSQL Procesamiento a gran escala Visualización y análisis Computación en la nube (IaaS) y Big Data Desarrollo de software para Big Data Implementaciones comerciales XXXIII Salón de Informática ACIS Qué es Big Data? • “Volumen de datos de una magnitud más grande de lo tradicional” Doug Laney, Gartner • “Un conjunto de avances tecnológicos que han hecho que la adquisición y análisis de datos se haga a una velocidad muy alta y de maneara eficiente” Dave Feinleb, Forbes Introducción XXXIII Salón de Informática ACIS Caracterización de Big Data Introducción Fuente: http://blogs.perficient.com/multi-shoring/blog/2012/07/16/big-data-big-deal/ XXXIII Salón de Informática ACIS Convergencia en teminología Introducción XXXIII Salón de Informática ACIS Big Data en Gartner Hype-Cycle 2013 Fuente: Emerging Technologies Hype Cycle for 2013: Redefining the Relationship, Gartner 2013 Introducción XXXIII Salón de Informática ACIS Literatura Científica Introducción XXXIII Salón de Informática ACIS Libros Introducción XXXIII Salón de Informática ACIS Impacto de Big Data Introducción XXXIII Salón de Informática ACIS Introducción Fuente: Big data—a growing torrent - McKinsey & Company XXXIII Salón de Informática ACIS Introducción Fuente: Big data—a growing torrent - McKinsey & Company XXXIII Salón de Informática ACIS Tecnologías Big Data Introducción • Infraestructura: Amazon WS, Google Big Query, Cloudera, etc. • Almacenamiento: HBase, Cassandra, MongoDB, etc • Acceso: Lucene, Solr, etc • Procesamiento: Map-reduce, Hadoop, Pig, Hive, etc • Análisis: Mahout XXXIII Salón de Informática ACIS Data base technology Bases de datos NoSQL Fuente: http://techcrunch.com/2012/10/27/big-data-right-now-five-trendy-open-source-technologies/ XXXIII Salón de Informática ACIS Características • • • • Bases de datos NoSQL Sistema de gestión de datos Generalmente no usan SQL Escalabilidad y desempeño Almacenamiento y acceso a grandes cantidades de datos, no sus relaciones XXXIII Salón de Informática ACIS Bases de datos NoSQL Tipos de bases de datos NoSQL • Orientadas a documentos • Orientadas a grafos • Almacenamiento clave-valor XXXIII Salón de Informática ACIS Bases de datos NoSQL Documentos • El concepto central es un “documento” • Los documents encapsulan y codifican datos usando algún mecanismo estándar • Codificación XML, YAML, JSON and BSON • También formatos binarios como PDF y otros • Los documentos son accedidos usando una única llave (key) XXXIII Salón de Informática ACIS Bases de datos NoSQL Grafos • Diseñados para datos cuyas relaciones son representadas como un grafo • Redes sociales, redes de transporte público, topologías de red • Basado en teoría de grafos: nodos y arcos XXXIII Salón de Informática ACIS BD NoSQL: clave-valor Bases de datos preparadas para permitir operaciones de escritura y lectura a gran escala. • La clave es el identificador único • El valor puede ser un objeto, tipo de dato, información no estructurada • Los registros pueden tener diferentes columnas • Discos de estado sólido • Caché en memoria XXXIII Salón de Informática ACIS Modelo Map-Reduce Procesamiento a gran escala • Modelo de programación para procesar grandes conjuntos de datos • Tipicamente utilizado para hacer computación distribuida en cluster de computadores (Google) • Inspirado en las funciones map y reduce usadas en el paradigma programación funcional • Implementación libre: Apache Hadoop XXXIII Salón de Informática ACIS Modelo Map-Reduce Procesamiento a gran escala XXXIII Salón de Informática ACIS Apache Hadoop Procesamiento a gran escala • Implementación abierta del modelo Map-Reduce • Sistema de archivos distribuido (HDFS) • Desarrollado en Java XXXIII Salón de Informática ACIS Hive Fuente: http://www.cubrid.org/blog/dev-platform/platforms-for-big-data/ Procesamiento a gran escala XXXIII Salón de Informática ACIS Pig Procesamiento a gran escala Fuente: http://guyharrison.squarespace.com/blog/2012/1/6/getting-started-with-apache-pig.html XXXIII Salón de Informática ACIS Visualización y análisis Análisis de redes Fuente: http://silvertonconsulting.com/blog/2011/06/24/big-data-part-3/ XXXIII Salón de Informática ACIS Visualización y análisis Información geográfica Fuente: http://silvertonconsulting.com/blog/2011/06/24/big-data-part-3/ XXXIII Salón de Informática ACIS Visualización y análisis Inteligencia de drogas Fuente: Jorge Camargo, Pierre Esseiva, Fabio González, Julien Wist, Luc Patiny, Monitoring of illicit pill distribution networks using an image collection exploration framework, Forensic Science International, Volume 223, Issues 1–3, 30 November 2012, Pages 298-305, ISSN 0379-0738 XXXIII Salón de Informática ACIS Visualización y análisis Análisis: Apache mahout Algoritmos • • • • Clasificación Agrupamiento Regresión Reducción de la dimensionalidad • Algoritmos evolutivos • Recomendación, filtro colaborativo XXXIII Salón de Informática ACIS Cloud computing y big data Amazon Web Services: web console XXXIII Salón de Informática ACIS Amazon Web Services: EC2 Cloud computing y big data XXXIII Salón de Informática ACIS Amazon Web Services: EC2 Cloud computing y big data XXXIII Salón de Informática ACIS Cloud computing y big data Amazon Web Services: Elastic Map-Reduce XXXIII Salón de Informática ACIS Amazon Web Services: S3 Cloud computing y big data XXXIII Salón de Informática ACIS Cloud computing y big data Amazon Web Services: DynamoDB XXXIII Salón de Informática ACIS Conocimientos técnicos • • • • Desarrollo de software para big data Prototipado: R, Matlab Programación: Java, C++ Scripting: Perl, Python Computación: aprendizaje computacional, minería de datos, estadística, visualización, computación paralela, computación distribuida • Grado académico: maestría y doctorado XXXIII Salón de Informática ACIS Perfil del data scientist Desarrollo de software para big data XXXIII Salón de Informática ACIS Implementaciones comerciales IBM Microsoft Cloudera EMC Oracle Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) j c a m a r g o @ b i g d a t a s o l u B o n s . c o Cámara de Comercio de Bogotá – Centro Empresarial Chapinero