ESCUELA SUPERIOR POLITECNICA DEL LITORAL PROGRAMA DE ESTUDIOS Procesamiento Masivo y Escalable de Datos UNIDAD ACADÉMICA: CARRERA: ESPECIALIZACIÓN: ÁREA: TIPO DE MATERIA: EJE DE FORMACIÓN: Facultad de Ingeniería en Electricidad y Computación Ingeniería en Ciencias Computacionales Todas TEÓRICA Profesional PRÁCTICA X 1. NOMBRE DE LA ASIGNATURA CÓDIGO PRE-REQUISITOS FIEC05884 FIEC01545 CO-REQUISITOS MATERIA Procesamiento Masivo y Escalable de Datos Desarrollo de Aplicaciones Web Ingeniería de Software II EQUIVALENTE A CONVALIDA CON CRÉDITOS/HORAS/SEMANALES: TEÓRICOS 1 PRÁCTICOS 3 PROFESOR RESPONSABLE Ing. Cristina Abad Robalino 2. OBJETIVOS Objetivo General: Familiarizar a los estudiantes con técnicas de procesamiento masivo de datos, usando Hadoop como plataforma libre de procesamiento escalable y distribuido, con un enfoque teórico-práctico. Objetivos Específicos: Familiarizar a los estudiantes con modernas técnicas y métodos de procesamiento masivo de datos. PROGRAMA DE ESTUDIO: IG1002-1 ESCUELA SUPERIOR POLITECNICA DEL LITORAL PROGRAMA DE ESTUDIOS Comprender el rol y el impacto del procesamiento escalable, distribuido, y tolerate a fallos que plataformas como Hadoop permite obtener. Exponer al estudiante al uso de servicios de Cloud Computing, como el Elastic Computing Cloud (EC2) de Amazon. Adquirir la habilidad necesaria para aplicar el paradigma MapReduce a problemas reales que requieran procesamiento masivo de datos. 3. PROGRAMA RESUMIDO: 1. 2. 3. 4. 5. 6. 7. 8. Introducción MapReduce Sistemas de archivos distribuidos Computación en la nube (cloud computing) Hadoop Documentación de proyectos Otros sistemas distribuidos Proyecto 4. PROGRAMA DETALLADO 1. Introducción (2 sesiones, 4 horas) Políticas de la materia (Sesión 1) Introducción a la programación en paralelo (Sesión 1) Paralelismo y sincronización (Sesión 1) Computación distribuida (Sesión 1) Introducción a MapReduce (Sesión 1) Taller: Selección de tema y planteamiento de objetivos (Sesión 2) 2. MapReduce (2 sesiones, 4 horas) Map/Fold en lenguajes de programación funcionales (Sesión 3) Paradigma MapReduce para procesamiento distribuido y paralelo (Sesión 3) Taller práctico (Sesión 4) Avance 1 de proyecto (Sesión 4) 3. Sistemas de archivos distribuidos (2 sesiones, 4 horas) Introducción a los sistemas de archivos distribuidos (Sesión 5) NFS y AFS (Sesión 5) Google File System (GFS) (Sesión 5) Taller práctico (Sesión 6) Avance 2 de proyecto (Sesión 6) 4. Computación en la nube (cloud computing) (4 sesiones, 8 horas) PROGRAMA DE ESTUDIO: IG1002-1 ESCUELA SUPERIOR POLITECNICA DEL LITORAL PROGRAMA DE ESTUDIOS 5. 6. 7. 8. Introducción: modelo de negocios y ejemplos (Sesión 7) Caso de estudio: Amazon Web Services (AWS) (Sesión 7) Taller práctico (Sesión 8) Avance 3 de proyecto (Sesión 8) Hadoop en las nubes (Sesión 9) Taller práctico (Sesión 10) Avance 3 de proyecto (Sesión 10) Hadoop (6 sesiones, 12 horas) Flujo lógico y físico de datos (Sesión 15) API (Sesión 15) Ejercicios (Sesión 16) Avance 4 de proyecto (Sesión 16) Ecosistema de Hadoop (Sesión 17) Taller práctico (Sesión 18) Avance 5 de proyecto (Sesión 18) Programación con Hadoop (Sesión 19) Taller práctico (Sesión 20) Avance 6 de proyecto (Sesión 20) Documentación de proyectos (2 sesiones, 4 horas) Guía para la elaboración de afiches (Sesión 21) Guía para la elaboración de papers (Sesión 21) Guía para la elaboración de documentos de proyectos de graduación en la ESPOL (Sesión 21) Avance 7 de proyecto (Sesión 22) Otros sistemas distribuidos (2 sesiones, 4 horas) DNS (Sesión 23) BOINC (Sesión 23) PlanetLab (Sesión 23) OLPC (Sesión 23) Avance 8 de proyecto (Sesión 24) Proyecto (4 sesiones, 8 horas) Revisión de decisiones de diseño (Sesión 25) Revisión de implementación (Sesión 26) Revisión de presentaciones para sustentación (Sesión 27) Revisión de documentación (Sesión 28) 5. TEXTO GUÍA Hadoop: The Definitive Guide: Rough Cuts Version By Tom White Rough Cuts Release: September 2008 Print Book Release: July 2009 PROGRAMA DE ESTUDIO: IG1002-1 ESCUELA SUPERIOR POLITECNICA DEL LITORAL PROGRAMA DE ESTUDIOS ISBN 10: 0-596-52199-5 | ISBN 13: 9780596521998 6. BIBLIOGRAFÍA Otro material de referencia: Blog de la materia: http://blog.espol.edu.ec/hadoop/ George Coulouris, Jean Dollimore y Tim Kindberg, “Distributed Systems: Concepts and Design”, 4ta edición. Addison-Wesley. 2005. IEEE Distributed Systems Online: http://dsonline.computer.org/ 7. VISADO DECANO/DIRECTOR FECHA: SECRETARIO ACADÉMICO FECHA: STA FECHA: 8. VIGENCIA DEL PROGRAMA RESOLUCIÓN COMISIÓN ACADÉMICA: PROGRAMA DE ESTUDIO: IG1002-1