CURSO: APACHE SPARK CAPÍTULO 1: INTRODUCCIÓN www.formacionhadoop.com Índice 1 ¿Por qué realizar el curso de Apache Spark? 2 Requisitos previos del curso 3 Bloques del curso 4 Objetivos 5 Tutor del curso 6 Información de interés 2 ÍNDICE ¿POR QUÉ REALIZAR EL CURSO DE APACHE SPARK? Una de las tendencias tecnológicas que están haciendo más ruido es el denominado 'Big Data'. Las firmas analistas y grandes compañías coinciden en que será uno de los pilares en torno a los que gire el mercado en los próximos años. Apache Spark es el siguiente nivel de la generación en MapReduce. Spark es un poderoso motor de procesamiento, de código abierto para los datos en el cluster Hadoop, optimizadas para la velocidad, facilidad de uso, y la analítica avanzada. El marco Spark soporta streaming de procesamiento de datos y complejos, algoritmos iterativos, permitiendo a las aplicaciones para ejecutar hasta 100 veces más rápido que los programas tradicionales de Hadoop MapReduce. La calidad de los cursos está garantizada ya que todos los profesores son profesionales experimentados y especializados en esta tecnología que han superado con éxito los exámenes de certificación de Cloudera. 4 ÍNDICE REQUISITOS PREVIOS DEL CURSO Este curso está recomendado para desarrolladores que quieran aprender la tecnología de procesamiento de datos in-memory. Los ejemplos y ejercicios del curso se presentan en Python y Scala, por lo se requiere el conocimiento de uno de estos lenguajes de programación. Se supone conocimientos básicos de Linux. No se requiere conocimiento previo de Hadoop. 6 ÍNDICE BLOQUES DEL CURSO El curso se encuentra dividido en 2 grandes bloques: En el primer bloque aprenderemos los conceptos básicos de Spark, realizar pequeños programas con Spark y como interactuar con el sistema de ficheros de Hadoop (HDFS). En el segundo bloque del curso aprenderemos a realizar nuestras aplicaciones con Spark y como mejorar el rendimiento de las mismas. Cada uno de los bloques está compuesto por los temas correspondientes del curso, ejercicios prácticos para afianzar el conocimiento y material complementario para facilitar el aprendizaje. - BLOQUE 1: - Introducción a Apache Spark: -¿Por qué utilizar Apache Spark? - Spark: Conceptos básicos. - Programación básica con Spark. - Procesamiento de datos con RDDs. - Spark y HDFS. 8 - BLOQUE 2: - Spark en nuestro cluster Hadoop. - Programación paralela con Spark. - Cacheo y persistencia de datos. - Escritura de aplicaciones con Spark. - Spark Streaming. - Rendimiento de una aplicación Spark. 9 ÍNDICE OBJETIVOS El objetivo del curso es aprender a construir potentes aplicaciones de procesamiento de datos in-memory utilizando Apache Spark. A continuación enumeramos los principales objetivos del curso: Conocer Apache Spark para poder utilizarlo en los momentos adecuados Programación básica de datos con “Resilient Distributed Datasets (RDDs) Como se comporta Apache Spark con el procesamiento de datos de forma distribuida Como Apache Spark es capaz de interactuar con el sistema de ficheros de Hadoop. Como crear aplicaciones con Spark y obtener el mejor rendimiento de cada una de ellas Como procesar datos en tiempo real gracias a Spark Streaming 11 ÍNDICE TUTOR DEL CURSO - El tutor del curso está especializado en las tecnologías Big Data. Con años de experiencia como Big Data Software Engineer y como instructor de los cursos oficiales de Cloudera. Fernando Agudo Tarancón: - Big Data Software Engineer - Hadoop Instructor of Cloudera: Cloudera Developer Training for Apache Hadoop. Cloudera Administrator Training for Apache Hadoop Cloudera Developer Training for Apache Spark. -Títulos y certificaciones: Ingeniero Técnico en Informática de Gestión. CCDH: Cloudera Certified Developer for Apache Hadoop. CCAA: Cloudera Certified Administrator for Apache Hadoop. 13 ÍNDICE INFORMACIÓN DE INTERÉS El curso se desarrolla sobre la distribución de Cloudera CDH5. Es una distrubución fácil de instalar y construida con los paquetes oficiales de Apache Hadoop Core incluyendo paquetes adicionales de su ecosistema. Es una versión estable, 100% OpenSource. Para poder realizar los ejercicios del curso, es necesario tener instalada la anterior distribución. Una forma fácil y sencilla de realizar pruebas con un sistema Hadoop, es configurar nuestro sistema de forma Pseudo-distribuida: http://www.cloudera.com/content/cloudera-content/clouderadocs/CDH5/latest/CDH5-Quick-Start/cdh5qs_yarn_pseudo.html 15 Cursos oficiales de Cloudera: http://cloudera.com/content/cloudera/en/training/courses/sparktraining.html Para poder realizar los ejercicios del curso se recomienda descargar la máquina virtual de Cloudera: http://www.cloudera.com/content/cloudera/en/downloads/quickstart_vms/cdh-5-2-x.html 16 Contacto administracion@formacionhadoop.com www.formacionhadoop.com TWITTER Twitter.com/formacionhadoop FACEBOOK Facebook.com/formacionhadoop LINKEDIN linkedin.com/company/formación-hadoop 17