Programa de la materia de graduación

Anuncio
ESCUELA SUPERIOR POLITECNICA DEL LITORAL
PROGRAMA DE ESTUDIOS
Procesamiento Masivo y Escalable de Datos
UNIDAD ACADÉMICA:
CARRERA:
ESPECIALIZACIÓN:
ÁREA:
TIPO DE MATERIA:
EJE DE FORMACIÓN:
Facultad de Ingeniería en Electricidad y Computación
Ingeniería en Ciencias Computacionales
Todas
TEÓRICA
Profesional
PRÁCTICA
X
1. NOMBRE DE LA ASIGNATURA
CÓDIGO
PRE-REQUISITOS
FIEC05884
FIEC01545
CO-REQUISITOS
MATERIA
Procesamiento Masivo y Escalable de Datos
Desarrollo de Aplicaciones Web
Ingeniería de Software II
EQUIVALENTE A
CONVALIDA CON
CRÉDITOS/HORAS/SEMANALES:
TEÓRICOS
1
PRÁCTICOS
3
PROFESOR RESPONSABLE
Ing. Cristina Abad Robalino
2. OBJETIVOS
Objetivo General:
Familiarizar a los estudiantes con técnicas de procesamiento masivo de datos,
usando Hadoop como plataforma libre de procesamiento escalable y
distribuido, con un enfoque teórico-práctico.
Objetivos Específicos:
 Familiarizar a los estudiantes con modernas técnicas y métodos de
procesamiento masivo de datos.
PROGRAMA DE ESTUDIO:
IG1002-1
ESCUELA SUPERIOR POLITECNICA DEL LITORAL
PROGRAMA DE ESTUDIOS



Comprender el rol y el impacto del procesamiento escalable, distribuido,
y tolerate a fallos que plataformas como Hadoop permite obtener.
Exponer al estudiante al uso de servicios de Cloud Computing, como el
Elastic Computing Cloud (EC2) de Amazon.
Adquirir la habilidad necesaria para aplicar el paradigma MapReduce a
problemas reales que requieran procesamiento masivo de datos.
3. PROGRAMA RESUMIDO:
1.
2.
3.
4.
5.
6.
7.
8.
Introducción
MapReduce
Sistemas de archivos distribuidos
Computación en la nube (cloud computing)
Hadoop
Documentación de proyectos
Otros sistemas distribuidos
Proyecto
4. PROGRAMA DETALLADO
1. Introducción (2 sesiones, 4 horas)
 Políticas de la materia (Sesión 1)
 Introducción a la programación en paralelo (Sesión 1)
 Paralelismo y sincronización (Sesión 1)
 Computación distribuida (Sesión 1)
 Introducción a MapReduce (Sesión 1)
 Taller: Selección de tema y planteamiento de objetivos (Sesión 2)
2. MapReduce (2 sesiones, 4 horas)
 Map/Fold en lenguajes de programación funcionales (Sesión 3)
 Paradigma MapReduce para procesamiento distribuido y paralelo
(Sesión 3)
 Taller práctico (Sesión 4)
 Avance 1 de proyecto (Sesión 4)
3. Sistemas de archivos distribuidos (2 sesiones, 4 horas)
 Introducción a los sistemas de archivos distribuidos (Sesión 5)
 NFS y AFS (Sesión 5)
 Google File System (GFS) (Sesión 5)
 Taller práctico (Sesión 6)
 Avance 2 de proyecto (Sesión 6)
4. Computación en la nube (cloud computing) (4 sesiones, 8 horas)
PROGRAMA DE ESTUDIO:
IG1002-1
ESCUELA SUPERIOR POLITECNICA DEL LITORAL
PROGRAMA DE ESTUDIOS
5.
6.
7.
8.
 Introducción: modelo de negocios y ejemplos (Sesión 7)
 Caso de estudio: Amazon Web Services (AWS) (Sesión 7)
 Taller práctico (Sesión 8)
 Avance 3 de proyecto (Sesión 8)
 Hadoop en las nubes (Sesión 9)
 Taller práctico (Sesión 10)
 Avance 3 de proyecto (Sesión 10)
Hadoop (6 sesiones, 12 horas)
 Flujo lógico y físico de datos (Sesión 15)
 API (Sesión 15)
 Ejercicios (Sesión 16)
 Avance 4 de proyecto (Sesión 16)
 Ecosistema de Hadoop (Sesión 17)
 Taller práctico (Sesión 18)
 Avance 5 de proyecto (Sesión 18)
 Programación con Hadoop (Sesión 19)
 Taller práctico (Sesión 20)
 Avance 6 de proyecto (Sesión 20)
Documentación de proyectos (2 sesiones, 4 horas)
 Guía para la elaboración de afiches (Sesión 21)
 Guía para la elaboración de papers (Sesión 21)
 Guía para la elaboración de documentos de proyectos de graduación
en la ESPOL (Sesión 21)
 Avance 7 de proyecto (Sesión 22)
Otros sistemas distribuidos (2 sesiones, 4 horas)
 DNS (Sesión 23)
 BOINC (Sesión 23)
 PlanetLab (Sesión 23)
 OLPC (Sesión 23)
 Avance 8 de proyecto (Sesión 24)
Proyecto (4 sesiones, 8 horas)
 Revisión de decisiones de diseño (Sesión 25)
 Revisión de implementación (Sesión 26)
 Revisión de presentaciones para sustentación (Sesión 27)
 Revisión de documentación (Sesión 28)
5. TEXTO GUÍA
Hadoop: The Definitive Guide: Rough Cuts Version
By Tom White
Rough Cuts Release: September 2008
Print Book Release: July 2009
PROGRAMA DE ESTUDIO:
IG1002-1
ESCUELA SUPERIOR POLITECNICA DEL LITORAL
PROGRAMA DE ESTUDIOS
ISBN 10: 0-596-52199-5 | ISBN 13: 9780596521998
6. BIBLIOGRAFÍA
Otro material de referencia:
 Blog de la materia: http://blog.espol.edu.ec/hadoop/
 George Coulouris, Jean Dollimore y Tim Kindberg, “Distributed Systems:
Concepts and Design”, 4ta edición. Addison-Wesley. 2005.
 IEEE Distributed Systems Online: http://dsonline.computer.org/
7. VISADO
DECANO/DIRECTOR
FECHA:
SECRETARIO
ACADÉMICO
FECHA:
STA
FECHA:
8. VIGENCIA DEL PROGRAMA
RESOLUCIÓN COMISIÓN ACADÉMICA:
PROGRAMA DE ESTUDIO:
IG1002-1
Descargar