CRONOLOGÍA DE LAS TECNOLOGÍAS CONCEPTOS BÁSICOS DEL BIG DATA Introducción a Big Data CRONOLOGÍA DE LAS TECNOLOGÍAS ÍNDICE CRONOLOGÍA DE LAS TECNOLOGÍAS .............................................................................................................. 2 INTRODUCCIÓN A BIG DATA 1 CRONOLOGÍA DE LAS TECNOLOGÍAS CRONOLOGÍA DE LAS TECNOLOGÍAS En este documento veremos de una forma gráfica además de explicativa cómo ha ido evolucionando la tecnología en el siglo XXI. En el año 2002, Doug Cutting trabajaba en el desarrollo de un buscador Nutch a gran escala. El proyecto tenía problemas de escalabilidad ya que el sistema no era capaz de procesar todos los datos. Para que lo entendamos, únicamente podía procesar el 15% de las webs y no podía pasar de ese tanto por ciento. En los años 2003 y 2004, Jeff Dean y su equipo de investigación de Google publican dos artículos que resultan clave. Uno describía el sistema de archivos distribuido de Google, Google File System, y el otro describía un nuevo paradigma basado en fases Map/Reduce. En 2004, Doug Cutting lee estos artículos e implementa NDFS, Nutch Distributed File System, una manera económica de implementar el sistema de archivos distribuidos de Google, que solucionaba gran parte de los problemas de escalabilidad que tenía. Sigamos. Ya en 2006, Yahoo contrata a Doug y crea un proyecto en Apache llamado Hadoop, una implementación del paradigma Map/Reduce. El proyecto NDFS se renombra a HDFS (Hadoop Distributed File System), nombre por el que se le conoce hoy. Se crea la versión 1.0 de Hadoop. Así, Yahoo usando Hadoop ordena 1,8 Terabytes en 47,9 horas, algo increíble para las tecnologías existentes en 2006. Al año siguiente, Yahoo Labs crean “Pig”, un sistema que permitía acceder y transformar los datos ocultando la complejidad del paradigma Map/reduce basándose en el lenguaje de scripts. En 2008, FaceBook crea Hive, un sistema que permite acceder y transformar los datos ocultando la complejidad del sistema basado en SQL. Su principal función era migrar los programas en SQL al nuevo paradigma. También en 2008 se crea Cloudera, empresa con vocación de software libre creada por ingenieros que trabajaban en Google, Yahoo y Facebook, enfocada a comercializar Hadoop. Veamos la línea del tiempo en la siguiente figura: INTRODUCCIÓN A BIG DATA 2 CRONOLOGÍA DE LAS TECNOLOGÍAS 2002 2003 2004 2006 Doug Cutting trabaja en Nutch Artículos de Google GFS Map/Reduce Doug Cutting incorpora DFS en Nutch •Yahoo ficha a Doug Cutting •Hadoop Proyecto Apache Foundation 2007 Yahoo crea Ping 2008 •Se crea Cloudera •Facebook crea Hice Continuando, al año siguiente, concretamente en 2009, Yahoo ya puede ordenar 1 Terabyte de información ¡en 62 segundos! ¿Te imaginas? Ese mismo año, nuestro Doug Cutting se une a Cloudera. Vayamos a 2010. Matei Zaharia, realiza su tesis doctoral en la Universidad de Berkeley, enfocada en proporcionar una mejor alternativa para procesar datos masivos en determinados casos en los que MapReduce no era del todo eficiente. Su tesis se basa en el uso de la memoria en lugar de usar el disco HDFS para el tratamiento masivo de datos. Nace Spark. Ya en 2013, el proyecto es donado a Apache Foundation y nace Databricks, enfocada a comercializar distribuciones basadas en Spark. En 2015, Google libera sus librerías para aprendizaje profundo, TensorFlow, para uso mediante licencia Open Source. Al año siguiente, la startup DataTorrent lidera el Proyecto Apache Apex, que permite tratamiento por lotes y en tiempo real. Por último, en 2017, se acepta en Apache Foundation el conjunto de librerías MXNet que usa Amazon para aprendizaje profundo. Y por si fuera poco, todas estas tecnologías son de licencia abierta, es decir, cualquiera puede usarlas sin coste alguno. Bueno, ¡no está mal el recorrido! ¡Hasta pronto! INTRODUCCIÓN A BIG DATA 3 CRONOLOGÍA DE LAS TECNOLOGÍAS 2010 2009 •Yahoo! Ordena un terabyte en 62 segundos •Doug Cutting se une a Cloudera Matei Zaharia Tesis Spark Databrick INTRODUCCIÓN A BIG DATA 2013 2015 2016 2017 Se crea Databrick Google libera bajo licencia open source tensor flow para aprendizaje profundo Apache, proyecto liderado por la empresa DataTorrent unifica el tratamiento en lotes y en tiempo real MXNet Amazon Aprendizaje profundo aceptado en fase de incubadora en Apache Foundation. 4 CRONOLOGÍA DE LAS TECNOLOGÍAS INTRODUCCIÓN AL BIG DATA INTRODUCCIÓN A BIG DATA 5