Charla: Procesamiento Masivo y Escalable de Datos con MapReduce Resumen MapReduce es un framework implementado por Google que permite realizar computación paralela sobre inmensos conjuntos de datos en clusters de computadoras. El framework ha sido tan exitoso que han surgido muchas implementaciones libres y comerciales inspiradas en él. Entre estas implementaciones, se encuentra el proyecto de software libre Apache Hadoop, el cual proporciona una implementación para Java de MapReduce. Hadoop es usado actualmente con resultados muy exitosos por gigantes mundiales como Yahoo!, IBM, Amazon, Facebook, el New York Times, entre otros. Empresas pequeñas y Start-ups también usan actualmente Hadoop, muchas de ellas a través de sub-contratar el servicio de Amazon denominado EC2 (Elastic Computing Cloud), el cual permite alquilar tiempo de procesamiento, a un costo muy bajo, en clusters Hadoop dedicados. En esta charla se hablará sobre el paradigma de programación distribuida usado en MapReduce, la implementación libre para Java: Hadoop, se presentarán ejemplos de usos de este framework, y se discutirán posibles usos de esta plataforma en la ESPOL y como herramienta para estudiantes tesistas. Referencias de interés Sobre MapReduce: http://en.wikipedia.org/wiki/MapReduce Sitio oficial del proyecto Hadoop: http://hadoop.apache.org/ Amazon Elastic Compute Cloud (Amazon EC2): http://www.amazon.com/gp/browse.html?node=201590011. El paper original de Google sobre MapReduce: “MapReduce: Simplified Data Processing on Large Clusters” (disponible en línea en: http://labs.google.com/papers/mapreduceosdi04.pdf). Acerca de la expositora La Ing. Cristina Abad Robalino es una Profesora Agregada de la Facultad de Ingeniería en Electricidad y Computación (FIEC) de la Escuela Superior Politécnica del Litoral (ESPOL). La Ing. Abad obtuvo su título de Master of Science (in Computer Science) de la Universidad de Illinois en Urbana-Champaign, gracias a una beca Fulbright (2001-2003), y fue asistente de investigación durante un año en el National Center for Supercomputing Applications (NCSA), en donde trabajó en el diseño de protocolos de multicast en capa de aplicación seguros y altamente disponibles, y también en el desarrollo de una herramienta para la visualización de tráfico de redes con la finalidad de detectar patrones de intrusiones. Actualmente, la Ing. Abad forma parte del Grupo de Visualización Científica y Sistemas Distribuidos (www.visid.espol.edu.ec), y dirige el Laboratorio de Sistemas Distribuidos y Tecnologías de Internet Aplicadas de la FIEC. Sus principales áreas de investigación son los sistemas distribuidos (en particular, las redes peer-topeer), la seguridad informática, y las redes de datos.