Curso práctico Big Data y Data Analytics ¿QUE ES BIG DATA? En la actual era digital, hay una explosión de datos por todas partes. Google procesa más de 24 PetaBytes de datos por día, casi 300 billones de emails y una cantidad similar de tweets se envían diariamente. Trillones de sensores se comunican cada día alimentando el Internet de las Cosas (IoT) con datos en tiempo real. ¿Cómo se están utilizando estos datos? Big Data ha llegado como el siguiente boom tecnológico y es considerado el mayor desarrollo desde el advenimiento de Internet, con la promesa de revolucionar el mundo de las Tecnologías de la Información y nuestro diario vivir. Big Data es un término que describe un gran volumen de datos - tanto estructurados como no estructurados - que inundan diariamente un negocio. Pero no es la cantidad de datos lo que es importante. Es lo que hacen las organizaciones con los datos lo que importa. Grandes volúmenes de datos pueden ser analizados para obtener resultados que conducen a mejores decisiones y movimientos estratégicos de negocio. Entender el concepto y saber cómo almacenar, procesar, analizar y visualizar grandes cantidades de datos, es clave como primer paso hacia la evolución de ciudades inteligentes. El objetivo de este curso es proveer una visión global de Big Data y las herramientas que permitirán a profesionales y a las empresas, dar sus primeros pasos hacia la adopción y el desarrollo de las tecnologías y las aplicaciones del futuro. Objetivo del curso El curso tiene como objetivo introducir a los participantes a los conceptos y fundamentos de Big Data mediante el uso de herramientas y técnicas para almacenar, procesar, analizar y finalmente visualizar grandes volúmenes de datos. 2 Objetivos específicos Entender los conceptos y fundamentos de Big Data mediante un análisis global de las motivaciones, procedimientos, problemáticas y soluciones tecnológicas aplicables a casos de uso reales en todo su ciclo de vida. Adquirir un conocimiento y manejo general de herramientas para el análisis y procesamiento de datos de manera sencilla, por medio de lenguajes de programación comúnmente utilizados en Ciencias de Datos como Python, R, C++ y herramientas de procesamiento distribuido como Apache Hadoop y Elasticsearch. Explorar y utilizar herramientas para el almacenamiento, procesamiento, análisis y visualización de grandes volúmenes de datos a través de talleres prácticos, discusiones, tutoriales y showcases (demostraciones en vivo) con casos de uso y ejemplos de la vida real. Tener una visión global de las técnicas de optimización de algoritmos típicamente utilizados como parte de una solución de Big Data, por medio de ejemplos y ejercicios prácticos que demuestran su usabilidad. Desarrollar un proyecto (caso de uso real) en el que pondrá en práctica los conocimientos adquiridos en el curso, mediante la construcción de una solución de BigData aplicada a una problemática propuesta por el participante. 3 Requerimientos del participante Certificación: Este curso servirá como preparación para la Certificación como Big Data Professional o Big Data Science Professional a través del Big Data Science School. www.bigdatascienceschool.com › Conceptos básicos de programación › Conceptos básicos de Bases de Datos › Actitud para aprender a utilizar nuevas herramientas tecnológicas y usar herramientas de vanguardia. Público objetivo › Estudiantes y Profesionales de las siguientes áreas: - Tecnologías de la Información y Comunicación - Ing. De Sistemas - Ing. Civil - Ing. Eléctrica y Electrónica - Ing. en Telecomunicaciones - Ing. Comercial y Negocios - Científicos de Datos - Matemáticos y/o Estadísticos - Periodismo - Inteligencia de Negocios › Empresas Privadas o Públicas. › Personas desarrollando proyectos de tipo Startups 4 Contenido 1. PARTE I: Introducción En esta parte, hablaremos sobre generalidades y la importancia de Big Data en las organizaciones y en las Tecnologías de Información en la Actualidad. 2. PARTE II: Los Fundamentos de Big Data. CAPITULO 1: Entendiendo Big Data Proporciona una idea de los conceptos clave y la terminología que definen la esencia misma de grandes volúmenes de datos y la promesa que tiene para ofrecer ideas de negocios sofisticados. Se abordarán los siguientes temas: - Conceptos y terminología - Datasets (conjunto de datos) - Análisis y Analítica de datos - Inteligencia de negocios (BI) - Características de Big Data - Las 5 V’s de Big Data: Volumen, Velocidad, Variedad, Veracidad y Valor. - Diferentes tipos de datos 5 CAPITULO 2: Motivación para el uso de Big Data Trata de responder a la pregunta de por qué las empresas deben estar motivadas a adoptar Big Data como consecuencia a los cambios que subyacen en el mundo del mercado y de negocios. Se abordarán los siguientes temas: - Data Analytics y Data Science - Redes sociales - Comunidades y dispositivos Hyper-conectados - Computación en la nube - Internet de las cosas (IoT) CAPITULO 3: Consideraciones para la adopción y planificación de Big Data Muestra que la decisión de adoptar Big Data, debe tener en cuenta muchas consideraciones tecnológicas y de negocio. Del mismo modo, el análisis de ciclo de vida de grandes volúmenes de datos impone requisitos de procesamiento distintas. Se abordarán los siguientes temas: - Prerrequisitos de organización - Captura de datos - Privacidad y Seguridad - Asistencia en tiempo real - Distintos retos en performance - Nubes - El Ciclo de vida de Big Data 6 CAPITULO 4: Tecnologías de la Empresa y Big Data Business Intelligence Examina los enfoques actuales de almacenamiento de datos empresariales e inteligencia de negocios. A continuación, se amplía esta noción para demostrar que los recursos de almacenamiento y análisis de Big Data se pueden utilizar en combinación con herramientas de supervisión del rendimiento corporativo para ampliar las capacidades analíticas de la empresa y profundizar los conocimientos entregados por la inteligencia de negocios. 3. PARTE III: Almacenando y Analizando Big Data En esta parte se analizarán conceptos fundamentales y aspectos que deben tomarse en cuenta para el almacenaje, procesamiento, análisis y uso de herramientas tecnológicas que nos ayudarán a trabajar con Big Data. Se realizarán demostraciones prácticas y se revisarán casos de uso de ejemplo para entender cada uno de los siguientes temas: CAPITULO 5 y 7: Conceptos y Tecnologías de Almacenaje El capítulo 5 aborda los fundamentos técnicos y metodologías para almacenar grandes volúmenes de datos. En esta parte el estudiante llevará a cabo prácticas en las que será capaz de empezar a trabajar con herramientas noSQL (Not only SQL), típicas de ambientes y soluciones de Big Data. CAPITULO 6: Conceptos de Procesamiento En esta parte el estudiante podrá comprender las técnicas y conceptos básicos que deben se reconsiderados cuando se empieza a procesar grandes cantidades de Datos. Esto típicamente se resuelve a través de un procesamiento de tipo distribuido. En la práctica el estudiante explorará algunos algoritmos y frameworks de programación como MapReduce, así como también ejecutará talleres prácticos utilizando herramientas muy conocidas en el área de Data Analytics como Apache Hadoop. 7 CAPITULO 8: Técnicas de Análisis y Visualización El estudiante en este punto adquirirá destreza en el manejo de herramientas como ElasticSearch y Kibana, mismas que sirven de apoyo en el análisis de datos en sistemas distribuidos, de igual manera se exploran algunas técnicas de análisis de texto utilizando algoritmos de Machine Learning, análisis cualitativo y cuantitativo y muchos más. 4. PARTE IV: Aspectos de Optimización En esta parte del curso nos enfocaremos en analizar aspectos de optimización, que son muy importantes al momento de procesar grandes datasets. Se pueden aprovechar las capacidades computacionales de los computadores (o supercomutadores) para procesar y analizar grandes volúmenes de datos en tiempos óptimos, a través de la paralelización de nuestros algortimos generalmente en ambientes distribuidos configurados en la Nube. 8 CAPITULO 9: Computación Paralela y Computación de Alto rendimiento (HPC) El capítulo 9 trata acerca de dos temas fundamentales en el desarrollo de aplicaciones científicas. Muchas de ellas relacionadas con las Ciencias de la Vida (Molecular Dynamics, Drug Docking, Image Processing, etc). Se abordan aspectos de optimización que permitirán que nuestros algoritmos de análisis y procesamiento puedan ejecutarse en tiempos más cortos aprovechando al máximo nuestros recursos computacionales a través de la computación Paralela y la computación de Alto rendimiento. CAPITULO 10: Computación en la Nube En este capítulo el estudiante será capaz de introducirse en el mundo de la Computación en la Nube. Se analizan los distintos modelos de Nubes que se ofrecen y se exploran las alternativas Comerciales que actualmente son más utilizadas como: Microsoft Azure, Google Cloud, Amazon y NeCTAR. 9 5. PARTE V: Mejores Prácticas y Open Data (Datos Abiertos) La parte final, trata acerca de las mejores prácticas para Big Data. Se analizan los factores que influyen en el fracaso y el éxito en la implementación de proyectos que a su vez involucran un cambio de mentalidad con miras hacia el procesamiento y análisis de grandes volúmenes de datos. Además se aborda un tema trascendental que es el habilitador de este tipo de proyectos, esto es Datos Abiertos (Open Data). Analizaremos la importancia que tiene poner datos a disposición del público libremente, con un beneficio a nivel organizacional, gubernamental y social. Metodología La parte teórica del curso está enfocada mayormente en la preparación para los exámenes de Certificación avalados por Pearson Vue, de la academia Big Data Science School. Actualmente este curso es el único dictado y preparado en español en el país y a nivel de Latinoamérica, sin embargo el participante deberá repasar el contenido en inglés, para que posteriormente pueda acceder a los exámenes en este mismo idioma. Adicionalmente, durante el curso el participante será capaz de poner en práctica sus conocimientos a través de talleres grupales en donde analizarán casos de uso generalmente aplicados a la realidad de su ambiente profesional y laboral. Conforme se avanza en los capítulos, se realizarán talleres prácticos de lenguajes de programación científicos como: Python, R y C++, que servirán como herramientas para analizar y procesar Big Data más adelante. Finalmente, los estudiantes propondrán un tema de proyecto grupal en el que aplicarán todo el ciclo de vida de Big Data y en el que serán capaces de abordar y solucionar las problemáticas implicadas en la adopción e implementación de una solución de Big Data y Data Analytics. 10 Material para los participantes › Máquina virtual (Ubuntu 14.04) con todas las herramientas configuradas y ejemplos listos para ser probados. › Presentaciones en PDF › Material audiovisual (videos, entrevistas, etc.) › Libro en PDF (Traducción de Libro Big Data Fundamentals y material recopilado de diversas fuentes) › Tutoriales en PDF (Parte práctica del curso) › Scripts, programas e instaladores correspondientes a la parte práctica del curso. › Datasets y archivos de texto a ser analizados. (Parte práctica) › Acceso a publicaciones e información adicional de diversas fuentes. Detalles del curso Duración: 70hrs. Modalidades: 1. Lunes a Viernes (7 semanas), desde el 1 de Agosto (7:00 a 9:00) 2. Sábados (12 sesiones), desde el 6 de Agosto (8:00 a 14:00) Evaluación: Se evaluarán casos de uso en clase y la ejecución de un proyecto final que se realizará en la parte final del curso, bajo la supervisión de los Instructores. Aprobación del Curso: Asistencia mínima: 80% y proyecto final: 80% Lugar: Facultad de Sistemas - EPN 11 Inversión La inversión en el curso es de $449 (más IVA). Instructores Ing. Diego Montúfar, MiT Co-fundador y Director Ejecutivo de Handytec S.A, Ing. de Sistemas graduado en la Universidad de Cuenca quién luego obtuvo el grado de Master of Information Technology en la Universidad de Melbourne, Australia. Experto en computación de alto rendimiento (HPC), computación distribuida y en la Nube. Posee experiencia en el desarrollo de aplicaciones móviles multiplataforma y la implementación de arquitecturas en Sistemas distribuidos. Su principal objetivo es liderar los proyectos de innovación a nivel Nacional e Internacional, así mismo introducir y fomentar el uso de nuevas tecnologías dentro y fuera del país. Ing. Juan Pablo Zaldumbide, MsC Ing. de Sistemas, con Maestría en Gerencia de Sistemas de la Información, con amplia exeriencia laboral en empresas privadas y públicas dentro del País. Obtuvo el grado de Master of Science en la Universidad de Melbourne, Australia. Experto en análisis y procesamiento de BigData, Ciencia de Datos, Análisis de Big Data, Aplicaciones para E-health y Computación en la Nube. Inscripciones Las inscripciones se realizan a traves de este Formulario 12 Certificación Al final del curso el Participante recibirá un certificado de aprobación, avalado por la Escuela Politécnica Nacional, en conjunto con la empresa pública EPN TECH EP, la Facultad de Sistemas (FIS-EPN) y Handytec S.A. Formas de pago La forma de pago es a través de depósito, transferencia bancaria o tarjeta de crédito (Diners Club, Mastercard y Visa) Por favor, realice la transacción a la cuenta: 1.- Empresa pública EPN-TECH EP. Ruc. 1768179760001 Cuenta corriente. Nº. 7624034 Banco Pacifico Sublinea: 130108 2.- Para Instituciones Públicas Cuenta corriente Nº. 1127558 Banco Central del Ecuador Políticas de inscripciones y cancelaciones *Una vez realizado el pago, solicitamos nos envíen una copia de la transacción al correo nmena@tech.epn.edu.ec para formalizar el trámite de inscripción. ** En caso de que el participante deponga su participación luego de iniciado el curso, no existirá devolución del valor cancelado. *** En caso de que el participante deponga de su participación antes del inicio del curso, se realizará la devolución con un cargo del 10% por gastos administrativos. **** El cupo mínimo para cada modalidad del curso son 18 participantes, en caso de que no se llenen los cupos, las fechas estarán sujetas a un cambio de acuerdo a lo que resuelva la parte de la organización del curso, misma que será notificada a los participantes con anticipación. 13 Contacto Lic. Carla Cisneros Community Manager, CMO, Handytecmobi S.A Email: carla.cisneros@handytec.mobi Cel. 0995168566 Ing. Diego Montúfar, MiT Director Ejecutivo, Handytecmobi S.A Email: diego.montufar@handytec.mobi Cel. 0995030269 Handytecmobi S.A www.handytec.mobi contact@handytec.mobi Inscripciones y pagos Nadia Mena Jefe Financiero, EPN Tech EP Email: nmena@tech.epn.edu.ec Telf. 2976300, ext. 6101 Organizan 14 Handytecmobi S.A, Todos los derechos reservados ® 2016 www.handytec.mobi