análisis de datos en reposo y en movimiento: hadoop y otras

Anuncio
Experto en Big Data y Data Science:
Ciencia e Ingeniería de Datos
ANÁLISIS DE DATOS EN REPOSO Y EN
MOVIMIENTO: HADOOP Y OTRAS
TECNOLOGÍAS
Nº de Créditos: 5 ECTS
Primer Semestre
EQUIPO DOCENTE
Gallego Gómez, Jenaro
Arquitecto de Tecnologías de
Información
IBM
Coordinador
Caravaca Moreno, Juan
Especialista en Big Data y
Analytics
IBM
González Martínez, Iván
Escuela Politécnica Superior
UAM
Moreno Martínez, Víctor
Escuela Politécnica Superior
UAM
Reina Julia, Luis
Especialista en Big Data y
Analytics
IBM
Sánchez Peña, Juan José
Escuela Politécnica Superior
UAM
Sánchez Cubas, Julio
Arquitecto de Tecnologías de
Información
IBM
OBJETIVOS


Utilizar el nuevo modelo de programación MapReduce y saber en qué casos puede
aplicarse
Utilizar la plataforma Hadoop así como las diversas herramientas del ecosistema
Hadoop
Experto en Big Data y Data Science:
Ciencia e Ingeniería de Datos






Desarrollar en el ecosistema Hadoop, utilizando las distintas alternativas de
programación disponibles.
Conocer qué es el análisis de datos en movimiento o streams y ver su aplicación real
en la toma de decisiones en diferentes industrias.
Conocer a alto nivel cuál es el ecosistema actual de herramientas de analítica en
tiempo real y su utilización para solucionar problemáticas actuales y futuras.
Trabajar con herramientas de analítica en tiempo real como IBM Streams y Apache
Storm para comprender cómo se aborda un proyecto siguiendo el paradigma de
streams de datos.
Conocer el lenguaje funcional y declarativo Jaql.
Analizar la herramienta de consulta Pig así como su lenguaje procedural y no
declarativo Pig Latin.
PROGRAMA DETALLADO

Proyecto Apache Hadoop
o HDFS
o Modelo de Programación Map/Reduce
 Aprovisionamiento de datos en Hadoop
o Apache Flume
o Apache Sqoop
 Ecosistema de Hadoop
o Hive
o BigSQL
o Apache HBase
o Text Analytics
o Avro
o Zookeeper
o BigR
o Flujos de trabajo. Planificación con Oozie
 Desarrollo de aplicaciones en el sistema Hadoop
o Programación básica en Java con Hadoop
o Programación básica en Python con Hadoop
o Programación desde lenguajes de alto nivel (Pig, Jaql)
 Análisis de datos en movimiento
o Stream Computing
o Infosphere Streams
o Storm: el entorno distribuido de Apache para analizar datos en tiempo real
Experto en Big Data y Data Science:
Ciencia e Ingeniería de Datos
BIBLIOGRAFÍA














Hadoop The definitive guide. Tom White. Ed: O'Reilly, 2011. Catálogo biblioteca:
INF/C6130/WHI.
Beginning java programming the object oriented approach. Deepak Vohra. Ed: John
Wiley and Sons, 2015. Catálogo biblioteca: INF/C6140-J/BAE.
The
Power
of
Now.
http://www-01.ibm.com/common/ssi/cgibin/ssialias?infotype=PM&subtype=BK&htmlfid=IMM14165USEN#loaded
Github Streams.http://ibmstreams.github.io/
Streams Playbook.
https://www.ibm.com/developerworks/community/wikis/home?lang=enus#!/wiki/InfoSphere%20Streams%20Playbook/page/Welcome
Trials and Demos. http://www-01.ibm.com/software/data/infosphere/streamcomputing/trials.html
Streams Dev. http://ibm.co/streamsdev
Pig: getting started http://pig.apache.org/docs/r0.12.1/start.html
Gates, Alan: “Programming Pig”, Ed. O’Reilly Media, 2011.
Pasupuleti, Pradeep: “Pig Design Patterns”, Ed. Pack Publishing, 2014.
A. Gates, O. Natkovich, S. Chopra, P. Kamath, S. Narayanam, C. Olston, B. Reed, S.
Srinivasan, U. Srivastava. "Building a High-Level Dataflow System on top of
MapReduce: The Pig Experience," Proceedings Very Large Data Bases, vol 2 no. 2,
2009, pp. 1414-1425
Google code: https://code.google.com/p/jaql/
Jaql overview: http://www01.ibm.com/support/knowledgecenter/SSPT3X_1.1.0/com.ibm.swg.im.infosphere.
biginsights.doc/doc/c0057474.html
Jaql: A scripting language for large scale semistructured data analysis. K. S. Beyer et
al. Proceedings VLDB Endow. (PVLDB), 4(12):1272--1283, 2011.
MÉTODOS DOCENTES

•
•
•
Lección magistral
Resolución de problemas
Prácticas de laboratorio
Estudio de casos
Experto en Big Data y Data Science:
Ciencia e Ingeniería de Datos
MÉTODOS DE EVALUACIÓN



Asistencia a clase: 10%
Evaluación continua: 40%
Examen final: 50%
Descargar