Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c)

Anuncio
Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) j c a m a r g o @ b i g d a t a s o l u B o n s . c o Cámara de Comercio de Bogotá – Centro Empresarial Chapinero
XXXIII Salón de Informática ACIS
Agenda
• 
• 
• 
• 
• 
• 
• 
Introducción
Bases de datos NoSQL
Procesamiento a gran escala
Visualización y análisis
Computación en la nube (IaaS) y Big Data
Desarrollo de software para Big Data
Implementaciones comerciales
XXXIII Salón de Informática ACIS
Qué es Big Data?
•  “Volumen de datos de
una magnitud más grande
de lo tradicional” Doug
Laney, Gartner
•  “Un conjunto de avances
tecnológicos que han
hecho que la adquisición
y análisis de datos se
haga a una velocidad muy
alta y de maneara
eficiente” Dave Feinleb,
Forbes
Introducción
XXXIII Salón de Informática ACIS
Caracterización de Big Data
Introducción
Fuente: http://blogs.perficient.com/multi-shoring/blog/2012/07/16/big-data-big-deal/
XXXIII Salón de Informática ACIS
Convergencia en teminología
Introducción
XXXIII Salón de Informática ACIS
Big Data en Gartner Hype-Cycle 2013
Fuente: Emerging Technologies Hype Cycle for 2013: Redefining the Relationship, Gartner 2013
Introducción
XXXIII Salón de Informática ACIS
Literatura Científica
Introducción
XXXIII Salón de Informática ACIS
Libros
Introducción
XXXIII Salón de Informática ACIS
Impacto de Big Data
Introducción
XXXIII Salón de Informática ACIS
Introducción
Fuente: Big data—a growing torrent - McKinsey & Company
XXXIII Salón de Informática ACIS
Introducción
Fuente: Big data—a growing torrent - McKinsey & Company
XXXIII Salón de Informática ACIS
Tecnologías Big Data
Introducción
•  Infraestructura: Amazon WS, Google Big
Query, Cloudera, etc.
•  Almacenamiento: HBase, Cassandra,
MongoDB, etc
•  Acceso: Lucene, Solr, etc
•  Procesamiento: Map-reduce, Hadoop, Pig,
Hive, etc
•  Análisis: Mahout
XXXIII Salón de Informática ACIS
Data base technology
Bases de datos NoSQL
Fuente: http://techcrunch.com/2012/10/27/big-data-right-now-five-trendy-open-source-technologies/
XXXIII Salón de Informática ACIS
Características
• 
• 
• 
• 
Bases de datos NoSQL
Sistema de gestión de datos
Generalmente no usan SQL
Escalabilidad y desempeño
Almacenamiento y acceso a grandes cantidades
de datos, no sus relaciones
XXXIII Salón de Informática ACIS
Bases de datos NoSQL
Tipos de bases de datos NoSQL
•  Orientadas a documentos
•  Orientadas a grafos
•  Almacenamiento clave-valor
XXXIII Salón de Informática ACIS
Bases de datos NoSQL
Documentos
• 
El concepto central es
un “documento”
• 
Los documents
encapsulan y codifican
datos usando algún
mecanismo estándar
• 
Codificación XML,
YAML, JSON and BSON
• 
También formatos
binarios como PDF y
otros
• 
Los documentos son
accedidos usando una
única llave (key)
XXXIII Salón de Informática ACIS
Bases de datos NoSQL
Grafos
• 
Diseñados para datos
cuyas relaciones son
representadas como un
grafo
• 
Redes sociales, redes
de transporte público,
topologías de red
• 
Basado en teoría de
grafos: nodos y arcos
XXXIII Salón de Informática ACIS
BD NoSQL: clave-valor
Bases de datos preparadas para permitir operaciones de escritura y lectura
a gran escala.
• 
La clave es el identificador único
• 
El valor puede ser un objeto, tipo
de dato, información no
estructurada
• 
Los registros pueden tener
diferentes columnas
• 
Discos de estado sólido
• 
Caché en memoria
XXXIII Salón de Informática ACIS
Modelo Map-Reduce
Procesamiento a gran
escala
•  Modelo de programación para procesar grandes
conjuntos de datos
•  Tipicamente utilizado para hacer computación
distribuida en cluster de computadores (Google)
•  Inspirado en las funciones map y reduce usadas en el
paradigma programación funcional
•  Implementación libre: Apache Hadoop
XXXIII Salón de Informática ACIS
Modelo Map-Reduce
Procesamiento a gran
escala
XXXIII Salón de Informática ACIS
Apache Hadoop
Procesamiento a gran
escala
•  Implementación abierta del modelo Map-Reduce
•  Sistema de archivos distribuido (HDFS)
•  Desarrollado en Java
XXXIII Salón de Informática ACIS
Hive
Fuente: http://www.cubrid.org/blog/dev-platform/platforms-for-big-data/
Procesamiento a gran
escala
XXXIII Salón de Informática ACIS
Pig
Procesamiento a gran
escala
Fuente: http://guyharrison.squarespace.com/blog/2012/1/6/getting-started-with-apache-pig.html
XXXIII Salón de Informática ACIS
Visualización y análisis
Análisis de redes
Fuente: http://silvertonconsulting.com/blog/2011/06/24/big-data-part-3/
XXXIII Salón de Informática ACIS
Visualización y análisis
Información geográfica
Fuente: http://silvertonconsulting.com/blog/2011/06/24/big-data-part-3/
XXXIII Salón de Informática ACIS
Visualización y análisis
Inteligencia de drogas
Fuente: Jorge Camargo, Pierre Esseiva, Fabio González, Julien Wist, Luc Patiny, Monitoring of illicit pill distribution
networks using an image collection exploration framework, Forensic Science International, Volume 223, Issues 1–3,
30 November 2012, Pages 298-305, ISSN 0379-0738
XXXIII Salón de Informática ACIS
Visualización y análisis
Análisis: Apache mahout
Algoritmos
• 
• 
• 
• 
Clasificación
Agrupamiento
Regresión
Reducción de la
dimensionalidad
•  Algoritmos
evolutivos
•  Recomendación,
filtro colaborativo
XXXIII Salón de Informática ACIS
Cloud computing y big
data
Amazon Web Services: web console
XXXIII Salón de Informática ACIS
Amazon Web Services: EC2
Cloud computing y big
data
XXXIII Salón de Informática ACIS
Amazon Web Services: EC2
Cloud computing y big
data
XXXIII Salón de Informática ACIS
Cloud computing y big
data
Amazon Web Services: Elastic Map-Reduce
XXXIII Salón de Informática ACIS
Amazon Web Services: S3
Cloud computing y big
data
XXXIII Salón de Informática ACIS
Cloud computing y big
data
Amazon Web Services: DynamoDB
XXXIII Salón de Informática ACIS
Conocimientos técnicos
• 
• 
• 
• 
Desarrollo de software
para big data
Prototipado: R, Matlab
Programación: Java, C++
Scripting: Perl, Python
Computación: aprendizaje computacional,
minería de datos, estadística, visualización,
computación paralela, computación distribuida
•  Grado académico: maestría y doctorado
XXXIII Salón de Informática ACIS
Perfil del data scientist
Desarrollo de software
para big data
XXXIII Salón de Informática ACIS
Implementaciones
comerciales
IBM
Microsoft
Cloudera
EMC
Oracle
Big Data: retos a nivel de desarrollo Ing. Jorge Camargo, MSc, PhD (c) j c a m a r g o @ b i g d a t a s o l u B o n s . c o Cámara de Comercio de Bogotá – Centro Empresarial Chapinero
Descargar