Experto en Big Data y Data Science: Ciencia e Ingeniería de Datos ANÁLISIS DE DATOS EN REPOSO Y EN MOVIMIENTO: HADOOP Y OTRAS TECNOLOGÍAS Nº de Créditos: 5 ECTS Primer Semestre EQUIPO DOCENTE Gallego Gómez, Jenaro Arquitecto de Tecnologías de Información IBM Coordinador Caravaca Moreno, Juan Especialista en Big Data y Analytics IBM González Martínez, Iván Escuela Politécnica Superior UAM Moreno Martínez, Víctor Escuela Politécnica Superior UAM Reina Julia, Luis Especialista en Big Data y Analytics IBM Sánchez Peña, Juan José Escuela Politécnica Superior UAM Sánchez Cubas, Julio Arquitecto de Tecnologías de Información IBM OBJETIVOS Utilizar el nuevo modelo de programación MapReduce y saber en qué casos puede aplicarse Utilizar la plataforma Hadoop así como las diversas herramientas del ecosistema Hadoop Experto en Big Data y Data Science: Ciencia e Ingeniería de Datos Desarrollar en el ecosistema Hadoop, utilizando las distintas alternativas de programación disponibles. Conocer qué es el análisis de datos en movimiento o streams y ver su aplicación real en la toma de decisiones en diferentes industrias. Conocer a alto nivel cuál es el ecosistema actual de herramientas de analítica en tiempo real y su utilización para solucionar problemáticas actuales y futuras. Trabajar con herramientas de analítica en tiempo real como IBM Streams y Apache Storm para comprender cómo se aborda un proyecto siguiendo el paradigma de streams de datos. Conocer el lenguaje funcional y declarativo Jaql. Analizar la herramienta de consulta Pig así como su lenguaje procedural y no declarativo Pig Latin. PROGRAMA DETALLADO Proyecto Apache Hadoop o HDFS o Modelo de Programación Map/Reduce Aprovisionamiento de datos en Hadoop o Apache Flume o Apache Sqoop Ecosistema de Hadoop o Hive o BigSQL o Apache HBase o Text Analytics o Avro o Zookeeper o BigR o Flujos de trabajo. Planificación con Oozie Desarrollo de aplicaciones en el sistema Hadoop o Programación básica en Java con Hadoop o Programación básica en Python con Hadoop o Programación desde lenguajes de alto nivel (Pig, Jaql) Análisis de datos en movimiento o Stream Computing o Infosphere Streams o Storm: el entorno distribuido de Apache para analizar datos en tiempo real Experto en Big Data y Data Science: Ciencia e Ingeniería de Datos BIBLIOGRAFÍA Hadoop The definitive guide. Tom White. Ed: O'Reilly, 2011. Catálogo biblioteca: INF/C6130/WHI. Beginning java programming the object oriented approach. Deepak Vohra. Ed: John Wiley and Sons, 2015. Catálogo biblioteca: INF/C6140-J/BAE. The Power of Now. http://www-01.ibm.com/common/ssi/cgibin/ssialias?infotype=PM&subtype=BK&htmlfid=IMM14165USEN#loaded Github Streams.http://ibmstreams.github.io/ Streams Playbook. https://www.ibm.com/developerworks/community/wikis/home?lang=enus#!/wiki/InfoSphere%20Streams%20Playbook/page/Welcome Trials and Demos. http://www-01.ibm.com/software/data/infosphere/streamcomputing/trials.html Streams Dev. http://ibm.co/streamsdev Pig: getting started http://pig.apache.org/docs/r0.12.1/start.html Gates, Alan: “Programming Pig”, Ed. O’Reilly Media, 2011. Pasupuleti, Pradeep: “Pig Design Patterns”, Ed. Pack Publishing, 2014. A. Gates, O. Natkovich, S. Chopra, P. Kamath, S. Narayanam, C. Olston, B. Reed, S. Srinivasan, U. Srivastava. "Building a High-Level Dataflow System on top of MapReduce: The Pig Experience," Proceedings Very Large Data Bases, vol 2 no. 2, 2009, pp. 1414-1425 Google code: https://code.google.com/p/jaql/ Jaql overview: http://www01.ibm.com/support/knowledgecenter/SSPT3X_1.1.0/com.ibm.swg.im.infosphere. biginsights.doc/doc/c0057474.html Jaql: A scripting language for large scale semistructured data analysis. K. S. Beyer et al. Proceedings VLDB Endow. (PVLDB), 4(12):1272--1283, 2011. MÉTODOS DOCENTES • • • Lección magistral Resolución de problemas Prácticas de laboratorio Estudio de casos Experto en Big Data y Data Science: Ciencia e Ingeniería de Datos MÉTODOS DE EVALUACIÓN Asistencia a clase: 10% Evaluación continua: 40% Examen final: 50%