Big Data Analytics Manuel del Pino Presales Manager Manuel_delpino@ibi.com Situación Big Data Big Data: Un enorme volumen de datos estructurados y no estructurados, que es tan grande que es difícil de procesar con base de datos y las técnicas tradicionales de software Los datos son una nueva clase de activos económicos, como la moneda y el oro Fuente: World Economic Forum 2012 Big Data El Cliente demanda Almacenar más datos Entregar respuestas casi tan rápido como aparecen los datos Reducir los gastos operativos y de capital Big Data ¿De donde viene los datos? Aplicaciones Web Online Para ejecutar aplicaciones(contenido, video, blogs, post) Para dar el contexto de los datos(amigos, medios sociales, colaboración) Para mantener aplicaciones(logs, métricas..) Cumplimiento regulatorio Iniciativa de Gobierno de datos Gestión del Riesgo Archivos electrónico de la información. Reunir y compartir experiencias. Gestión de ciclo de vida de productos y catálogos online Comunidad Móvil Big Data Internet of Things “The Internet of Things has the potential to change the world, just as the Internet did. Maybe even more so” Kevin Ashton Machine- Generated Data Almacenamiento de datos Human-Generated Data Tiempo Gartner: Crecimiento mayor al 650% en 5 Años Big Data Más que solo “Big” Data • Estructurados • Desestructurado • Semiestructurado • • • • Datos • Dinámico • Estático Pre-planificado Ad-hoc Estimadas Aproximadas Query Refresco de Función Datos • Transaccional • Análisis Big Data Gartner’s 2012 Hype Cycle for Emerging Technology Big Data Gartner’s 2013 Hype Cycle for Emerging Technology Big Data Gartner’s 2014 Hype Cycle for Emerging Technology Big data: Trough of Disillusionment Arquitectura de datos APLICACIONES Big Data Arquitectura de datos empresarial. Tradicional Business Analytics Custom Applications Packaged Applications Aproximación tradicional bajo presión DATA SYSTEMS 2,8 ZB in 2012 85% from new data types RDBMS EDW MPP 15x Machine Data by 2020 REPOSITORIES 40 ZB in 2020 DATA SOURCES Source IDC Traditional Sources New Sources (RDBMS, OLTP, OLAP) (Sentiment, clickstream, geo, sensor..) DATA SOURCES DATA SYSTEMS APLICACIONES Big Data Arquitectura de datos empresarial. Moderna Business Analytics Custom Applications Packaged Applications Aproximación moderna de datos para dar cabida a nuevos formatos y volúmenes RDBMS EDW MPP REPOSITORIES Data Lake Traditional Sources New Sources (RDBMS, OLTP, OLAP) (Sentiment, clickstream, geo, sensor..) Big Data Componentes de un data lake Hadoop Distribution: Cloudera, Hortonworks, MapR, Pivotal-HD, IBM • Herramientas Hive: Mapea datos a estructuras para sus uso con SQL Pig: Lenguaje de extracción de datos para big data Sqoop: Extrae de fuentes externas y carga en Hadoop Spark: Framework de propósito general para computación en cluster Storm: ETL en tiempo real • NoSQL: Document: MongoDB, CouchDB Graph: Neo4j, Titan Key Value: Riak, Redis Columnar: Cassandra, Hbase Search: Lucene, Solr, ElasticSearch • Lenguajes: Python, SciPy, Java, R, Scala Big Data Data Lake no es suficiente Big Data Arquitectura moderna de datos Data Architects System Operators Engineers Data Scientists Analysts Business Users META DATA / ETL TOOLS HDFS MANAGER DEVELOPER TOOLS DATA DISCOVERY BI / ANALYTICS ENTERPRISE REPORTING ENTERPRISE DATA WAREHOUSE ENTERPRISE DATA HUB ONLINE SERVING SYSTEM SYS LOGS WEB LOGS FILES RDBMS WEB/MOBILE APPLICATION Customers & end users Análisis de Datos Análisis de datos Analytics. Tipos Analítica Descriptiva • Performance Management • Scorecards • Dashboards • Informes ¿Qué Sucedió? ¿Qué es lo mejor que suceda? Analítica Prescriptiva (Optimización) • What-if • Rstat • Scoring Systems Analítica Diagnóstica • Query & Analysis • (InfoAssist) • Data Discovery • (e.g. Visual Discovery) ¿Por qué Sucedió? ¿Qué sucederá? Analítica Predictiva • Estadística • Rstat Análisis de datos El trabajo mas “sexy” actual Análisis de datos Adopción del BI por debajo del 22% “BI adoption as a percentage of employees remains flat at 22%.” (Source: BI Scorecard) ¿Cuáles son las barreras para ofrecer BI de uso general y Analytics para el otro 78 % ? Análisis de datos ¿Todo el mundo es un analista? “[In the beginning], I was thinking that everyone would want to be a data analyst, and that Yellowfin would enable that process,” said Rabie. “But in reality, only around five percent of users will actually build content and conduct sophisticated data analysis in the majority of deployments – especially large implementations. The other 95 percent of people are information consumers, using the insights afforded by prebuilt dashboards and reports to improve decision-making.” Análisis de datos Empleados sin perfil analítico “Solo un 22% de lo empleados en una compañía usan una herramienta de BI” (Source: BI Scorecard) Los empleados sin perfiles matemáticos sin suficiente servicio. 1% Diferentes perfiles/ Diferentes necesidades Campeón Analítico Lidera iniciativas analíticas Contribución indirecta a los resultados 5-10% Profesional Analítico Construye modelos analíticos y algoritmos Necesitan herramientas para analizar y descubrir. Contribución indirecta a los resultados BI cut-off point @ 22% 15-20% Semi-profesionales Analíticos Aplica modelos analíticos a problemas de negocio Contribución directa a los resultados 70-80% Analistas Amateurs Ponen los resultados de los modelos a trabajar Contribución directa a los resultados Source of Skills Distribution Statistics: Accenture Institute for High Performance | Copyright © 2010 Accenture. Necesitan apps para tomar decisiones en el momento. Análisis de datos Herramientas adecuadas y apps para cada decisor Para el Analista de Negocio Sólida cartera de herramientas para descubrir ideas Para Managers/Ejecutivos Dashboards para medir y monitorizar el rendimiento operativo Para empleados operacionales, socios , proveedores y clientes InfoApps para obtener respuestas a preguntas de negocio Análisis de datos Crear una experiencia como AppStore en BI & Analytics Análisis de datos Auto-servicio de información para anunciantes Páginas Amarillas sirve a cerca de 260.000 pequeñas y medianas empresas en Canadá. El grupo de Análisis de Clientes y Anunciantes proporciona a los anunciantes información para medir el rendimiento de sus inversiones en publicidad y rastrear el éxito de sus campañas. - Aproximadamente 52 mil millones de filas (9TB) de datos en bruto se cargan y se procesan cada día - Tiempo de respuesta de 2 a 10 segundos Análisis de datos Auto-servicio de venta de información de benchmarking Una InfoApp de Information Builders, "Scoreboard" , permite a más de 1.000.000 de titulares de tarjetas de pequeños negocios hacer un bechmark de los datos de ventas en comparación a otras organizaciones similares y tomar mejores decisiones de gestión de caja y de compras . Information Builders Information Builders Nuestro stack de soluciones Integración de Datos Information Builders Information Asset Management Platform Data Sources Inbound Integration Data Quality and Master Data Management Outbound Integration iWay Information Asset Management Information Assets: Reliable, Accurate, Timely, Meaningful Metadata Management Schedule Stewardship Data Dictionary Hierarchies Master Data Remediation Database Downstream Apps Enterprise Analytics Queue Protocol eMail Schedule DELTA eMail Match Merge View Manage Hierarchy Profiling File BATCH Protocol Profile Cleanse Transform Validate Enrich REAL-TIME DELTA Systems Database Queue BATCH Partners File DATA QUALITY FIREWALL Data REAL-TIME Upstream Apps Web Apps Portals Information Builders iWay Integration Suite Data Sources Inbound Integration Database Downstream Apps Queue Protocol eMail Schedule Metadata Management Legacy CRM Delta Schedule File Batch eMail Information Assets ERP Data Real-Time Systems HR Delta Financial Protocol ROUTING Partners Batch CRM D ATA L O A D I N G Queue ENRICHMENT Database T R A N S F O R M AT I O N File PRE-PROCESSING Real-Time Legacy Outbound Integration iWay Integration Suite ERP Data Upstream Apps Data Integration Process Financial HR Enterprise Analytics Web Apps Portals Information Builders iWay Data Governance Suite Master Data Apps iWay Master Data Suite Metadata Management Customers Services Server Data Profiler Partners Stewards Data Governance Portal Master Data Operations Business Rules Fuzzy Logic External Registers Externl Algorithms Scoring Extensions Profile Cleanse Transform Validate Enrich 360 Viewer Hierarchy Manager Managers Match Merge View Manage Hierarchy Master Data Hierarchies Stewardship Data Dictionary Administrators Custom Apps Remediation Information Builders Integración de datos. Adaptadores a datos gestionados Hadoop Tecnología Descripción Estándar de- facto para el acceso SQL Open Source Hortonworks y todos. Nueva versión más rápida. TEZ Rendimiento en-memoria Hive Metadata, Supports most HQL Para Cloudera, MapR, Amazon Motor de consultas baja latencia Para Hadoop y NoSQL Patrocinado por MapR Usa ANSI SQL Para HBase – La base de datos NoSQL de Hadoop Pone el SQL en NoSQL Compartir Red de Ficheros Lectura/escritura directa a MapR-FS Information Builders Integración de datos. Adaptadores a datos gestionados Hadoop Tecnología Descripción Data extracted from HDFS to MPP database Processing split between Hadoop and SQL Server IBM Big SQL ORACLE BigData SQL Teradata Aster SQL-H Mongo DB Information Builders Integración de datos. Adaptadores a datos gestionados Hadoop Tecnología Descripción Uses PostgresSQL Hive replacement… From Facebook Fastest SQL on Hadoop Index on Hadoop Nodes Uses Derby SQL Tez Alternative Information Builders Integración de datos. Data Migrator • • • • • • Data Management Console probé una interfaz gráfica Cualquier fuente de datos Genera metadato de Hive y Sinónimos de DataMigrator/WebFOCUS Genera fichero delimitados Uso de FTP cuando se necesita acceder a servidores remotos Ejecuta comandos de carga para copiar en HDFS • Extraer datos desde Hadoop • Filtrar y/o agregar datos • Escenarios de datos en HyperStage o RDBMS para análisis Information Builders Integración de datos. Data Migrator Information Builders Integración de datos. iWay Service Manager WebFOCUS Analytics WebFOCUS Analytics RStat WebFOCUS Analytics RStat Asegura la toma de la mejor decisión por el uso de análisis predictivos y estadísticos Construye sistemas de “scoring” fácilmente Permite aplicaciones predictivas a un coste mucho menor que otra soluciones o paquetes estadísticos Basado en el Open Source “R” WebFOCUS Analytics RStat. Preparación de datos y exploración • Particiones de los datos de entrada en datos de Entrenamiento y Test • Crea datos de ejemplo para replicación o revisión de particiones • Botones para definición de roles de variables • Input, target, ID, ignore • Estadística Descriptiva: Resúmenes, distribuciones, correlaciones • Reducción de variables a través de análisis de componentes principales • Visualizaciones en Caja, barras, gráficos de puntos, histogramas, Benford y mosaicos • Pruebas de Hipótesis: T-Test, F-Test • Transformación de Datos: • Normalizaciones, entrada de valores perdidos, analizar basura, limpieza WebFOCUS Analytics RStat. Construcción y test de modelos • Técnicas de modelado supervisadas para la clasificación y la predicción • Decision Tree • Boosting • Random Forests • Regression – Linear, GLM, Logistic, Poisson and Multinomial • Support Vector Machines • Feed Forward Neural Network • Survival Analysis – Cox PH and Parametric • Técnicas de modelado sin supervisión de trabajos exploratorios • Clustering – K-means and Hierarchical clustering for grouping records • Association Rules - apriori algorithm for finding co-occurrences of items • Evaluación de Modelos • Error matrix, risk chart, lift chart, ROC Curve, precision and sensitivity charts, predicted vs. observed charts WebFOCUS Analytics InfoDiscovery WebFOCUS Analytics InfoDiscovery Capacidades Acceder Acceso a Datos Empresariales, Web y Propios (pc) Preparar Visualizar Descubrir Blend, Limpiar, Calcular Representación Visual Identificar tendencias, patrones, relaciones, atípicos Compartir Publicar e Informar WebFOCUS Analytics InfoDiscovery Acceder Acceder a los datos desde hojas de cálculo a Big Data. Escritorio , Enterprise y fuentes basadas en la Web. Desde tiempo real, transacciones latencia cero a escenarios de datos. Conectores / Adaptadores: Optimizados para aumentar el rendimiento Aprovechar las capacidades particulares de cada fuente de datos Cumplir los protocolos de seguridad WebFOCUS Analytics InfoDiscovery Preparar Preparar - Limpiar, Manipular, y Enriquecer los Datos. Join/Blen de datos de múltiples fuentes. • Proteger a los usuarios de resultados incorrectos. Agregaciones y respuestas rápidas no pesadas • Un “área de trabajo analítico” de alta velocidad par almacenar grandes volúmenes de Datos • Compresiones del 90% • Sin necesidad de índices ni pre-agregaciones WebFOCUS Analytics InfoDiscovery Visualizar Librería de gráficos HTML 5 Gráficos Matriciales, uso de colores, tamaño de los gráficos para análisis multidimensionales Análisis Geográficos y Demográficos WebFOCUS Analytics InfoDiscovery Descubrir Query visual de los datos Ver patrones que normalmente no se detectan Comprender porqué exciten valores atípicos WebFOCUS Analytics InfoDiscovery Compartir en toda la empresa …. Crear Storyboards …. Storyboard - Construir un modelo de negocio visual que apoya las decisiones Publicar –Compartir las visualizaciones interactivas con otros usuarios de negocios Refrescar –Planificar actualizaciones de datos para un análisis continuo WebFOCUS Analytics Magnify WebFOCUS Analytics Magnify. Buscador empresarial Provee de indexación en tiempo real de información transaccional Trabaja con cualquier fuente de datos Búsqueda y categorización de información estructurada y desestructurada Fácil de usar por cualquier tipo de usuario Basado en el Open Source Lucene, dando como resultado un alto valor a un bajo coste de implementación Buscar y encontrar datos desde el nivel más bajo de detalle hasta el mayor informe de resumen WebFOCUS Analytics Magnify. Buscador empresarial Magnify Especialidad Otros Vendedores Especialidad Web Search Enterprise BI Search Database Mainframe Servidores Informes Registros /Transacciones Parámetros Más de 300 Aplicaciones y Fuentes de Datos Multi Media Informes Más de 300 Formatos de Ficheros Crawling Indexación Transaccional Magnify Diferenciador Documentos Imágenes Ficheros Compañías BI Compañías de Búsqueda WebFOCUS Analytics Magnify. Datos estructurados y no estructurados Estructurado Desestructurado Contenido Mixto Documentos Etiquetados Campos Clobs/Memo Documentos/Workflow MS WebFOCUS Analytics Magnify. Proceso Contenido Empresarial Transformar contenido en información de búsqueda 1 2 3 Search Request Magnify Results Report Request WF Report Proceso Magnify • Captura contenido en tiempo real como información a editar o añadir. • Cataloga el contenido con un motos de búsquedas indexando usando tags para categorizar, securizar, clasificar y presentar resultados almacenados. • Informes de BI que presentan diferentes formas de ver el contenido encontrado. • Los índices en cluster mantienen búsqueda dentro de una aplicación a medida que más información esté disponible. WebFOCUS Analytics Magnify. Valores Integración Metadata GUI Aplicación IDE Seguridad Conexión a 300 fuentes de datos; captura cambios en documentos en tiempo real, unión de documentos; y más … Uso de datos para clasificar documentos, e incrementar su encuentro, y hacer filtros dinámicos de búsqueda … Acceso simple, potente categorización dinámica, vista tabular interactiva, “multi-drill” a información adicional … Herramienta GUI de acceso a todos los componentes de la búsqueda, personalizar documentos en tiempo real… Seguridad para cada fuente de datos, incluyendo niveles de fila y columna para datos estructurados… Integración con otros sistemas de integración empresarial. WebFOCUS Analytics Hyperstage Big Data WebFOCUS Hyperstage Las soluciones de Análisis de Big Data necesitan bajas alteraciones, alta capacidad, alta densidad y modelos de despliegue de bajo coste. WebFOCUS Hyperstage es una base de datos de alto rendimiento analítico que está diseñada para gestionar las consultas generadas por las empresas en grandes volúmenes de datos, sin intervención de TI. Fácil de implementar y administrar, Hyperstage ofrece las respuestas que los usuarios de su empresa necesitan a un precio que puede pagar. WebFOCUS Hyperstage Arquitectura Base de Datos Columnar Inteligencia, no Hardware Administración Simplificada Diseñado para análisis rápidos Arquitectura Matriz de Conocimientos Sin Tunning manual Compresión de datos adaptativa Motor de query Iterativo Mínima administración continuada WebFOCUS Hyperstage Robustez al análisis Big Data Consultas más rápidas sin trabajo Sin índices, particiones de datos, proyecciones o cubos Cargas rápidas / Alta compresión Cargas distribuidas por servidores Bajos costes Menos almacenamiento, servidores y 90% menos administración Más rápida puesta en producción Despliegue en días WebFOCUS Hyperstage Bases de Datos de Columnas vs Filas Tradicional / OLTP Guarda los valores de un registro como una sola entidad COLUMNAR Almacena los datos de un registro en columnas WebFOCUS Hyperstage Columnas vs. Filas: ¿Cuál es el mejor caso de uso? Orientado a Filas Orientado a Columnas Todas las columnas son necesarias Solo se necesitas las columnas pertinentes Lo requiere un procesamiento transaccional Informes son agregaciones(sumas, cuentas, medias, etc.) WebFOCUS Hyperstage Columnas vs. Filas: Cómo Funciona 30 Columnas 50M Registros 50 días de datos, 1 millón de registros diarios I/O a disco, primer factor limitador Un diseño orientado a filas fuerza a la BD a recuperar todas las columnas de datos El tamaño de las tablas crecen debido a los índices La velocidad de carga se degrada debido a la necesidad de recrear índices al añadir datos, esto provoca grandes ordenaciones (otra operación muy lenta) WebFOCUS Hyperstage Columnas vs. Filas: Cómo Funciona Query: Select Columna 11 , Where Columna 17 sea la 3ª semana (día 15 – día 21) 50M Registros 30 Columnas WebFOCUS Hyperstage Columnas vs. Filas: Cómo Funciona 30 Columnas – Elimina 43 días – Recupera 7 millones de registros – 210 millones de elementos de datos 50M Registros Resultado basado en filas WebFOCUS Hyperstage Columnas vs. Filas: Cómo Funciona 30 Columnas – Elimina 43 días – Elimina 28 de las 30 columnas – 14 millones de elementos de datos 50M Registros Resultado basado en columnas WebFOCUS Hyperstage Arquitectura de Nodos de Conocimiento PAQUETES DE DATOS AQUITECTURA INTELIGENTE Datos almacenados en tamaños manejables, paquetes de datos altamente comprimidos Datos comprimidos usando algoritmos adaptados al tipo de datos Carga de datos y listo Sin índices o particiones a construir y mantener Nodos de conocimiento automáticamente actualizados al crear o actualizar paquetes de datos Datos súper-comprimidos pueden aprovechar hardware estándar NODOS DE CONOCIMIENTO Estadísticas y metadatos que “describen” los datos súpercomprimidos WebFOCUS Hyperstage Carga de Datos: Paquetes de Datos B1 C1 64K A2 B2 C2 64K A3 B3 C3 … … … Carga masiva de datos A1 A-n B-n C-n Paquetes de Datos 64K 64K WebFOCUS Hyperstage Carga de Datos: Compresión & Nodos de Conocimiento 64K Paquetes de Datos Comprimidos Almacenamiento en Disco 64K 64K … … … 64K Nodos de Conocimiento en Memoria WebFOCUS Hyperstage Que Apariencia Tienen los Datos Ahora Datos Originales 10 TB Datos Comprimidos 500 GB WebFOCUS Hyperstage Nodos de Conocimiento: Cómo Funcionan Los nodos de conocimiento responden a la consulta directamente, o Identifican los paquetes de datos requeridos, reduciendo al mínimo la descompresión, y Predicen los datos necesarios de antemano sobre la base de la carga de trabajo Todo gestionado por un motor de computación granular WebFOCUS Hyperstage Consultas con Nodos de Conocimiento: Cómo Funcionan Consulta: ¿Cómo van mis ventas este año? Motor granular interacciona iterativamente sobre los Nodos de Conocimiento Cada paso elimina Paquetes de Datos Si algún Paquete de Datos es necesario para resolver la consulta, solo estos son descomprimidos Nodo Conocimiento Datos Comprimidos WebFOCUS Hyperstage Consultas con Nodos de Conocimiento: Cómo Funcionan SELECT count(*) FROM employees WHERE salary > 100000 AND age < 35 AND job = ‘DBA’ AND state = ‘TX’ salary age No Match job Suspect state All Match WebFOCUS Hyperstage Consultas con Nodos de Conocimiento: Cómo Funcionan SELECT count(*) FROM employees WHERE salary > 100000 AND age < 35 AND job = ‘DBA’ AND state = ‘TX’ salary age job state Todos los paquetes ignorados Todos los paquetes ignorados Solo este paquete será descomprimido Todos los paquetes ignorados No match Suspect All Match WebFOCUS Hyperstage Rápido Time-to-Market: Flexibilidad Arquitectónica HYPERSTAGE & POSTGRES WebFOCUS Hyperstage Valor de Solución Incrementado Velocidad de Carga: – Cargas concurrentes en tablas individuales o múltiples – +100gb por hora Knowledge Grid Rendimiento de Consultas – Consultas ad hoc que pueden tardar horas con otras bases de datos se ejecutan en minutos; – Las consultas que tardan minutos en otras bases de datos se ejecutan en segundos Escalabilidad – +50TB por servidor Compressed Data WebFOCUS Hyperstage Benchmark Seguros Performance Mngmt SQL Server 10-25 mins Registro Vehículos Financias Análisis de Redess Hyperstage SQL Server 3X Faster Up to 30 mins Gobierno Oracle Hyperstage Hyperstage 23 seconds DB2 1.5 Minutes Análisis CDR Móviles SAS Hyperstage 1.5 Minutes 15 mins to 2 hours 15 seconds >20 Minutes 2 seconds Hyperstage 0.5 – 2 seconds Big Data Arquitectura moderna de datos Data Architects System Operators Engineers Data Scientists Analysts Business Users META DATA / ETL TOOLS HDFS MANAGER DEVELOPER TOOLS DATA DISCOVERY BI / ANALYTICS ENTERPRISE REPORTING Hyperstage ENTERPRISE DATA WAREHOUSE ENTERPRISE DATA HUB ONLINE SERVING SYSTEM SYS LOGS WEB LOGS FILES RDBMS WEB/MOBILE APPLICATION Customers & end users Conclusiones Big Data Analytics Conclusiones Big Data Analytics Manuel del Pino Presales Manager Manuel_delpino@ibi.com