INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” “BIG DATA” UNIDAD DIDÁCTICA : INTEGRACIÓN DE LAS TECNOLOGÍAS DE INFORMACIÓN Y COMUNICACIÓN DOCENTE : ING. JOSUÉ RIOS -MINAYA PÉREZ, MIRTHA JUANA INTEGRANTES: -REYES DOMINGUEZ, RONALD ROSMEL -GAMARRA ABANTO, PATRICIA ISELA -JULCA ROJAS NINA MELIZA -MARTÍNEZ SANCHEZ, YELIST CICLO Y SECCIÓN : I-C INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” DEDICATORIA Este trabajo está dedicado a DIOS, que nos ha dado la vida, y nos da la fuerza para continuar en estos tiempos de crisis y de dolor que nos está dejando el covid-19. A los profesores que abandonaron la instrucción presencial y crearon entornos de aprendizaje completamente remotos de un día para otro, y seguir entregando a sus alumnos su conocimiento para su crecimiento personal y profesional y los compañeros por su aporte en la conclusión satisfactoria de este trabajo. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” PRESENTACIÓN A continuación, presentamos nuestro trabajo denominado “BIG DATA”, que en el español significa, “DATOS MASIVOS”, La finalidad que tiene este estudio es la exposición de los motivos por las que la gestión del Big Data puede convertirse en una herramienta a favor de los empresarios. Comentaremos la historia, evolución, importancia y demás características del Big Data y su relación con el sector público, privado, cultura y social, y algunos ejemplos de cómo algunas personas y empresas le han sacado provecho de gestionar estos grandes datos. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” INDICE 1.- Introducción 2.- Historia y evolución del big data 3.- Qué es big data 4.- Características Fundamentales del Big Data 5.- Importancia del big data 6.- Surgimiento del big data 7.- Fases del proceso de transformación: de datos a información 8.- Tipos de datos en el Big Data 9.- Tecnologías Big data 10. Casos de éxito del Big Data 11. Big Data en la actualidad 11.1.- Áreas principales en los que los macro datos son una ventaja 11.2.-Preocupaciones del Big Data. 12. Conclusiones 13. Bibliografía INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” INTRODUCCIÓN La era de la gestión de grandes datos masivos ha llegado para quedarse, es lo que afirman muchos entendidos sobre el Big Data. Informáticos, físicos, economistas, matemáticos, científicos políticos, sociólogos y otros investigadores están pidiendo acceso a las cantidades masivas de información producidos por y sobre las personas, las cosas y sus interacciones. Y es que, en menos de veinte años hemos visto como hemos pasado de guardar documentos en una carpeta física a una carpeta digital en nuestro ordenador. Este cambio de almacenaje se debe básicamente a la enorme cantidad de datos que producimos diariamente y que son imposibles de guardar físicamente, hasta llegar al punto en el que los sistemas de procesamiento de datos cotidianos han quedado obsoletos. Hoy en día se están desarrollado numerosos softwares de procesamiento y análisis de este Big Data útiles en el ámbito empresarial. Es importante para las empresas el tener acceso a grandes bases de Big Data y la recopilación de datos para poder procesarlos posteriormente en información relevante para así ayudar a alcanzar los objetivos de las empresas. Para poder comprender todo este entramado daremos unas notas sobre qué es, que características tiene y expondremos algunos ejemplos de técnicas analíticas, así como diversos ejemplos de casos de utilización de Big Data en los sectores INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 2.- HISTORIA Y EVOLUCIÓN DEL BIG DATA El nombre de Big Data es un nombre novedoso y el cual ha tenido un auge muy importante en esta era de la tecnología, pero su concepto ha sido implementado muchos años atrás, hay incluso quienes lo sitúan en el paleolítico, cuando se hacían muescas en piedras o huesos para llevar un registro de las actividades cotidianas y comerciales para poder gestionar la duración del suministro de alimento. Años más tarde ha habido varios descubrimientos que han reforzado el interés por los datos, como la invención del ábaco supuso un empuje determinante al cálculo y análisis. O la consolidación de las primeras grandes bibliotecas, como la de Alejandría, que marca un antes y un después en el origen del almacenaje de datos, con una lógica que relaciona el término con el primitivo interés de los seres humanos por lograr y procesar la información. A continuación, ahondamos un poco más en esta cuestión compartiendo la historia del Big Data: En 1880 se realiza un censo en los Estados Unidos de América, censo que tardo 8 años en tabularse, está sobre carga de información como fue denominada, fue fundamental para que se enfocaran en la importancia que tiene el tratamiento de la información y de la necesidad de desarrollar avances en la metodología para el tratamiento de los datos. Hernan Hollerith, empleado del censo estadounidense, desarrolla su máquina tabuladora capaz de tomar la información depositada en tarjetas perforadas y analizarlos; la “máquina de Hollerith” como fue nombrada, implementó un sistema que revoluciono el valor de los datos. Con ella consigue reducir un trabajo de 10 años a 3 meses. Este ingeniero funda una compañía que posteriormente se conocería como IBM. En 1943 apareció la primera máquina de procesamiento de datos y fue desarrollada por los británicos para descifrar los códigos nazis durante la Segunda Guerra Mundial. Este dispositivo, llamado “Colossus” buscaba INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” patrones en mensajes interceptados a una velocidad de 5.000 caracteres por segundo. De ese modo, se reduce la tarea de semanas enteras a solo unas pocas horas. En 1965 Se proyecta el “primer data center del mundo” en el gobierno de los Estados Unidos, para almacenar 742 millones de declaraciones de impuestos y 175 millones de juegos de huellas dactilares en cinta magnéticas. En la década de los 70 el análisis de los datos empieza hacer prioridad para las predicciones y la toma de decisiones, el modelo Black-Sholes que se crea en 1973 y su propósito era poder predecir el precio óptimo de las acciones en el futuro. En 1991, Nace Internet, a la postre, la gran revolución de la recolección, almacenamiento y análisis de datos. Tim Berners-Lee establece las especificaciones de un sistema de red con interconexiones a nivel mundial accesible para todos en cualquier lugar. En 1997 debuta el buscador de Google y desde ese momento ya se convierte en el motor de búsqueda de datos más utilizado de internet. Se utiliza por primera vez el término 'Big Data'. Los investigadores de la NASA Michael Cox y David Ellsworth afirman en un artículo (en inglés) que el gran aumento de datos se estaba convirtiendo en un problema para los sistemas informáticos. En el año 2005 la web generada por los usuarios empieza a implementarse con mayor rapidez, la web 2.0 como fue denominada se logra implementando páginas web de estilo HTML con bases de datos basadas en SQL. En este año también es creada una herramienta de código abierto hadoop cuyo objetivo principal es el almacenamiento y el análisis de grandes datos. En el año 2009 Cloudera, aparece en el mercado. Entran en escena empresas que gestionan datos lo que permite a las empresas reunirlos en un lugar centralizado, seguro y completamente administrado. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” En el año 2011 Lanzamiento de Hortonworks, competidos de Cloudera, líder de plataformas de datos abiertas y conectadas permite acumular, analizar y actuar sobre la información derivada de los datos y es el 100% de código abierto. En el año 2012 Big data en las campañas políticas. En el año 2014 Nace el concepto Location Intelligence, toda tecnología enfocada a aportar información de valor procedente de datos geolocalizados, facilitando de esta forma la toma de decisiones. Según Gartner el número de empresas que lo usará se cuadruplicará en el año 2021. En el año 2015 Nace el Internet de las Cosas, había 3,700 millones de cosas conectadas en uso en este año. Año 2020 El futuro del big data, los expertos ahora apunta a un aumento estimado del 4300% en la generación anual de datos para el año 2021. Los factores impulsores incluyen el cambio de las tecnología analógicas a digitales y el rápido aumento en la generación de datos por parte de individuos y empresas por igual. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 3.- ¿QUE ES BIG DATA ? La primera pregunta que surge al mencionar este nuevo concepto es cómo se define el big data. ¿Qué grande debe ser una base de datos o el número de usuarios de una plataforma para ser considerado big data?, es importante tener presente que el orden de magnitud de big data se mide en terabytes y petabytes, no en gigabytes. Es decir, big data es un orden de magnitud mayor a lo que antes de la revolución digital considerábamos grandes bases de datos, incluyen datos estructurados, semiestructurados y no estructurados, de diferentes orígenes. Entonces, podemos denominar Big Data como el análisis y gestión de grandes volúmenes de datos los cuales no pueden ser tratados de la manera convencional, y los cuales deben cumplir con la ley de las 5V´s del Big Data, volumen, variedad, velocidad, veracidad y “valor” de los datos. Hoy en día la producción de datos es imparable y se realiza a una velocidad vertiginosa por eso es importante saber que datos son importantes y de cuales se puede prescindir para evitar una especie de “síndrome de Diógenes informacional”. IBM que es una de las empresas más importantes a nivel mundial sobre tecnología define a Big Data como: “la tendencia en el avance de la tecnología que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de decisiones, la cual es utilizada para describir enormes cantidades de datos (estructurados, no estructurados y semi estructurados) que tomaría demasiado tiempo y sería muy costoso cargarlos a un base de datos relacional para su análisis. De tal manera que, el concepto de Big Data aplica para toda aquella información que no puede ser procesada o analizada utilizando procesos o herramientas tradicionales”. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 4.- CARACTERÍSTICAS FUNDAMENTALES DEL BIG DATA: LAS 5Vs Anteriormente en las definiciones, se han mencionado brevemente cuatro de las cinco “uves” que componen el Big Data, y que son volumen, variedad, velocidad y veracidad. La última característica en añadirse, pero no menos importante es el “valor” de datos Consideramos importante profundizar dentro de estas cinco dimensiones del Big Data para comprender mejor el concepto: Volumen: Nos referimos a cantidades enormes de datos generadas a cada segundo. No estamos hablando de Terabytes, sino más bien de Zettabytes 1 o Brontobytes2. Hoy en día generamos cada minuto la misma cantidad de datos que los generados en el mundo desde el principio de los tiempos hasta el año 2008 (Mar, 2014). Esto hace que la mayoría de los datos sean muy grandes para ser almacenados y complicados de analizar usando la tecnología actual de bases de datos. Las nuevas herramientas de Big Data y analizar datos a través de bases de datos que están repartidas por todo el mundo. Velocidad: Al hablar de este término en relación con Big Data nos referimos por una parte a la velocidad con la que se crean datos actualmente y por otro la velocidad de procesamiento y análisis de estos. Con el “internet de las cosas” se puede extraer más información del usuario, ya que éste da información, por ejemplo, acerca de sus gustos cinematográficos y televisivos si hablamos de un televisor con internet; o un “Smartwatch” sabrá todo sobre nuestras rutinas, datos personales, etc. IDC afirma que actualmente hay 13 billones “cosas” conectadas, y estima que en el año 2020 habrá aproximadamente 212 millones en todo el mundo (IDC, 2015). Por otro lado, en las redes sociales podemos percibir a la velocidad que viaja la información, por ejemplo, cuando mensajes o videos se hacen virales en pocos segundos. Teniendo esto en cuenta, la velocidad a la que se producirán los datos en un futuro será titánica y por ello debemos adelantarnos, gestionándolos, transformándolos en información y aportando respuestas rápidas en el momento preciso. La cantidad de segundos que se tarde en procesar los datos, se considera un factor fundamental para marcar diferencias entre empresas. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” Variedad: Como comentábamos en un inicio los datos no estructurados se presentan en muy diversos formatos, ya sea vídeo, imágenes, emails, sensores de geolocalización, redes sociales y un amplio etcétera. Antiguamente estábamos centrados únicamente en los datos estructurados que cabían perfectamente en tablas o bases de datos relacionales. En realidad, el 80% de los datos del mundo se presentan en formatos no estructurados (Marr, 2014). Es por ello por lo que resulta esencial conocer la información que ese porcentaje de datos nos puede ofrecer. Gracias a diferentes herramientas que se han ido desarrollando para gestionar Big Data podemos analizar y reunir información sobre conversaciones, fotos, vídeos o grabaciones de voz. Además del volumen, esta característica es la que hace que analizar estos tipos de datos sea una ardua tarea. Otros ejemplos de datos Big Data son los siguientes (ver figura 1). Veracidad: (fiable con datos intrínsecamente imprecisos): es necesario valorar la autenticidad de los datos, puesto que para llegar a conclusiones precisas es necesario establecerse en datos reales. Valor: Este componente es quizás el más importante. Resulta complicado que las empresas se informaticen al nivel que se necesita el Big Data, y a su vez la rentabilidad de esa inversión deberá ser alta. El valor que se extraiga de los datos depende de la cantidad almacenada de los mismos y su tratamiento, y viceversa. Si conseguimos muchos datos, pero no extraemos valor de ellos no tendremos nada. Visualización: Que seamos capaces de proyectar esos datos, mostrarlos de tal forma que los datos se conviertan en información y decisiones. Viabilidad: La inteligencia empresarial es un componente fundamental para la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad que tienen las compañías en generar un uso eficaz del gran volumen de datos que manejan. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” La inteligencia competitiva también se asocia con la innovación de los equipos de trabajo y el uso de tecnologías empleadas. Una empresa inteligente analiza, selecciona y monitoriza la información con el fin de conocer mejor el mercado en el que opera, a sus clientes y diseñar estrategias eficaces. Es necesario filtrar a través de esta información y seleccionar cuidadosamente los atributos y factores que son capaces de predecir los resultados que más interesan a las empresas. El secreto del éxito es descubrir las relaciones entre las variables ocultas. Una vez que conoces la viabilidad de tu organización, es el momento de detallar el proyecto en una hoja de ruta, y desarrollar el plan de negocio. 5.- IMPORTANCIA DEL BIG DATA La importancia del Big Data radica en que éste impacta tanto en la industria, como en el negocio e incluso en nuestra sociedad y además ofrece una ventaja competitiva considerable. El análisis de big data permite a analistas, investigadores y usuarios de negocios tomar decisiones mejores y más rápidas utilizando datos que antes eran inaccesibles o inutilizables. Las empresas pueden utilizar técnicas de analítica avanzada, como análisis de texto, machine learning, analítica predictiva, minería de datos, estadísticas y procesamiento de lenguaje natural para obtener nuevos conocimientos de orígenes de datos previamente sin explotar, independientemente o junto con los datos empresariales existentes. 6.- SURGIMIENTO DEL BIG DATA El big data surge principalmente por tres razones. La primera es el gran número de usuarios de estas plataformas. En la actualidad más del 55% de la población mundial tiene acceso a internet (4,333 millones de usuarios), lo que se traduce en un mercado potencial enorme para estas plataformas. Las redes sociales presentan las siguientes cifras: Facebook : más de 2,740 millones de usuarios INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” You Tube : más de 2,291 millones de usuarios WhatsApp : más de 2,000 millones de usuarios Messenger: más de 1,300 millones de usuarios Instagram : más de 1,221 millones de usuarios, etc. Además del gran número de usuarios, la intensidad de uso que se le dan a estas plataformas es igualmente impresionante. A continuación, se listan algunas cifras de uso: A nivel global, pasamos 6 horas y 54 minutos en internet. Los usuarios de internet de todo el mundo pasan un promedio de 2 horas y 25 minutos al día conectados a las plataformas sociales, el último informe anual año 2021 revela que los usuarios de muchas economías en desarrollo registran el mayor tiempo invertido en Facebook, Twitter, Instagram y similares, como Filipinas (con 4 horas y 15 minutos) y Brasil (con 3 horas y 42 minutos. En cambio, los internautas más despegados de ellas se encuentran en algunos de los Estados con mayor renta per cápita del planeta, como Japón (con 51 minutos) y Alemania (con 1 hora y 24 minutos) y España (con 1 hora y 54 minutos). Estas cifras nos ayudan a dimensionar el tamaño de estas plataformas y la intensidad de uso de estas. Y todas las fotos, vídeos y comentarios se van acumulando minuto a minuto, generando lo que ahora conocemos como big data. La Segunda razón por la que surge el big data es por la gran concentración de mercado de estas plataformas. Si existieran 1.000 Facebooks o YouTubes en el mundo, estas grandes bases de datos estarían distribuidas en un número mayor de empresas y cada una de ellas tendría bases de datos de menor tamaño. Pero dado que se trata de medios digitales, el mercado en el que se compite es global y las plataformas ganadoras tienden a ser mundiales. La tercera razón por la que surge el big data se debe a la importancia que tienen hoy en día los datos para el aprendizaje. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 7.- FASES DEL PROCESO DE TRANSFORMACIÓN: DE DATOS A INFORMACIÓN LA CADENA DE VALOR DE BIG DATA ESTÁ COMPUESTA POR CUATRO FASES: • Captura de datos: en esta fase la misión es recopilar datos de todas las redes que tengamos a nuestra disposición. • Procesamiento de datos: por medio de herramientas tecnológicas específicas para este fin. • Análisis de datos: en esta fase se emplean diversos métodos de análisis. • Ejecución de los datos: es la puesta en valor de todos los datos recogidos y transformados en información relevante y útil para nuestra empresa. Las fases explicadas son procesadas de forma continuada, lo que permite maximizar la información que se obtiene del entorno. Si no se gestiona de forma adecuada los datos de los que dispone la organización puede existir lo que se denomina Infoxicación, es decir, intoxicación por exceso de información. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 8.- TIPOS DE DATOS EN EL BIG DATA Existen diferentes tipos de datos en Big Data. El Big Data es un todo, un proceso global, que empieza cuando damos con un dato y termina cuando lo convertimos en información útil para el negocio, la investigación o el objetivo que tengamos. Esto implica: la verificación del dato, su cruce con otros datos para extraer patrones, etcétera. el Big Data abarca: Los propios datos masivos. Las herramientas en las que almacenamos esos datos. Los software con los que los procesamos. La información que extraemos de ese procesamiento y su aplicación. Podemos afirmar que el Big Data vive por, para y gracias a los datos. ¿Qué datos? Vamos a ello. TIPOS DE DATOS SEGÚN SU ORIGEN En base al origen de los datos podemos realizar cinco grandes categorizaciones que son comunes en todos los análisis: datos de web y redes sociales, Big Transaction Data, datos biométricos, datos generados por los seres humanos y datos M2M. WEB Y REDES SOCIALES Este apartado comprende todos los datos que obtenemos de los usuarios digitales a partir de sus interacciones en redes sociales. Cada like, cada comentario, cada vez que compartimos un artículo o guardamos una foto, cada vez que vemos una publicación y no interactuamos con ella, cada vez que vemos una publicación y sí interactuamos con ella, básicamente, todo lo que hacemos en redes sociales genera data. Aquí también se incluyen los datos que se recogen en las páginas web a partir de la navegación (los clics que hacemos, el tiempo que estamos en una página, las páginas que visitamos cuando abrimos una web...), las ventas de INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” una e-commerce o las búsquedas que se realizan en Google y otros buscadores, por poner algunos ejemplos. BIG TRANSACCIÓN DATA Los Big Transacción Data son datos más complicados de categorizar que los que vienen, por ejemplo, de las redes sociales. Hablamos de los datos que se generan en grandes transacciones, por ejemplo, todos los registros de la facturación de una empresa, de las compras y ventas que ha hecho y los diferentes canales que se emplean para ello, la gestión de su stock, los clientes que tiene, etcétera. Podemos encontrar estos datos en formatos semiestructurado o no estructurado (te explicamos más adelante qué es cada uno y cuáles son sus diferencias). DATOS BIOMÉTRICOS Explicado de forma sencilla, los datos biométricos son los que aportamos los seres humanos a partir de nuestras características de conducta, físicas o fisiológicas. Por ejemplo, tu voz o la retina de tu ojo se pueden convertir en un dato biométrico. De igual forma, la huella dactilar o el escáner facial con los que desbloqueas el móvil son datos biométricos. DATOS GENERADOS POR LOS SERES HUMANOS En este grupo de datos generados por los seres humanos incluimos, por ejemplo, una llamada a atención al cliente (seguro que te suena eso de "su llamada podría ser grabada"). También son datos generados por seres humanos el correo electrónico que dejamos cuando nos creamos una cuenta de usuario en una plataforma o los formularios electrónicos que rellenamos cuando hacemos una compra o nos suscribimos a una newsletter. DATOS M2M Machine to Machine o de máquina a máquina. Los M2M son los datos que se obtienen a través de tecnologías que conectan a unos dispositivos con otros, haciendo que haya intercomunicación entre ellos. Esta interconexión de INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” máquinas genera un gran volumen de datos que precisa un análisis automatizado para tener sentido. Por ejemplo, si una fábrica implementa un software de control de stock inteligente, las propias máquinas comparten los datos, lo que permite realizar un inventario automatizado. Otro ejemplo, los frigoríficos inteligentes, capaces de detectar cuáles son los básicos de tu nevera, hacerte automáticamente la lista de la compra e incluso realizar esa compra online por sí solos en tu supermercado de confianza. TIPOS DE DATOS POR CATEGORÍA En la clasificación de datos por categoría distinguimos estructurados, no estructurados e híbridos o semiestructurados. ESTRUCTURADOS Los datos estructurados son datos ordenados. Aquí agrupamos datos cuyo formato está definido, al igual que su tamaño y su longitud. Precisamente por eso, su procesamiento es más sencillo que en el caso de datos no estructurados o semiestructurados. Piensa, por ejemplo, en una hoja de cálculo. NO ESTRUCTURADOS Cuando estamos ante datos que no tienen una estructura interna identificable, hablamos de datos no estructurados. Ejemplo: el batiburrillo de datos que puede dar un GPS o tu reloj inteligente, que lo mismo te puede decir cuántas horas has dormido o cuántas horas has tenido la calefacción puesta en casa. Ahora, suma tu batiburrillo de datos que generan todos los usuarios que tienen un reloj inteligente como el tuyo. También son no estructurados los datos generados por los usuarios, como los vídeos, audios, imágenes, PDF, etc. En ambos casos, la característica común y más destacable es que estos datos pueden tener muchísimo valor, INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” pero ese valor solo se consigue cuando se ordenan, se identifican y se almacenan. DATOS HÍBRIDOS Cuando hablamos de datos híbridos nos referimos a datos que no son regulares y que no se pueden gestionar de forma estandarizada. Al final, los datos semiestructurados están a caballo entre los estructurados y los no estructurados: no están estructurados a la perfección, pero sí existe una organización definida. En este caso, serían datos semiestructurados los datos que están en formato XML o el HTML de una web. Figura 1. Tipos de datos de Big Data. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 9.- TECNOLOGÍAS BIG DATA Otro punto clave que se debe tener en cuenta son las diferentes herramientas tecnológicas que se utilizan para la explotación de los datos. Sin entrar en profundidad en ellas para explorar el Big Data existen determinadas herramientas del desarrollador de software libre y código abierto, Apache Software Foundation. Enumeramos algunas de ellas: • HADOOP: es un sistema de código abierto que se usa para almacenar, procesar y analizar grandes volúmenes de datos y que almacena todo tipo de datos, tanto estructurados como no estructurados y prácticamente cualquier archivo o formato. (Spain Business School, 2016). • HDFS: es el sistema de archivos en el que se basa Hadoop. (Salmeron, 2016). • YARN – MapReduce: YARN se ocupa de distribuir el trabajo encontrando los datos que ha de procesar y gestiona la ejecución de los programas. (Salmeron, 2016). • HBASE: es el sistema de base de datos que usa Hadoop y se basa en BigTable de Google (Salmeron, 2016). • HIVE: apache Hive es un sistema de almacén de datos para Hadoop, que permite realizar resúmenes de datos, consultas y análisis de datos mediante HiveQL (un lenguaje de consultas similar a SQL) (Spain Business School, 2016). • SPARK: es de IBM y sirve para gestionar las aplicaciones de análisis de datos. (Spain Business School, 2016). • STORM: apache Storm es un sistema de cálculo de código abierto, distribuido y con tolerancia a errores que permite procesar datos en tiempo real con Hadoop. (Spain Business School, 2016). INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 10.- CASOS DE ÉXITO GRACIAS AL BIG DATA El Big Data ha suscitado la máxima expectación en la industria durante la última década. Con la recolección a gran escala de datos de varios lugares como las comunicaciones de redes sociales, los rastros de datos de navegación web, etc. El análisis de grandes datos y sus subsiguientes puntos de acción basados en el conocimiento han marcado una gran diferencia en los distintos sectores. LA CAMPAÑA DE BIG DATA QUE DIO LA VICTORIA A OBAMA (2012) El big data ha sido en gran parte el secreto que ha empujado la campaña del candidato demócrata, Barack Obama, al éxito. Lo primero que hicieron fue unir bases de datos, para tener una única con toda la información. Con esta megabase, que sumaba la información que recopilaban los voluntarios con la que se había conseguido gracias al registro en la web de Obama, tenían una base de datos increíble e inmensa que permitía trabajar de forma más efectiva para llegar al votante. Así, pudieron alcanzar cifras muy elevadas de financiación (el reto estaba en llegar a los 1.000 millones de dólares), algo que aportó, en parte, una campaña de mailing en la que nada se dejó al aire. El análisis de los datos permitió descubrir que Michelle Obama era un gran reclamo para conseguir financiación en primavera o que a veces el nombre del responsable de campaña, el propio Messina, era más efectivo que el vicepresidente Joe Biden. El big data también les ayudó a lidiar con los estados complicados, como Ohio. Allí, el uso de la tecnología de big data les permitió saber el estado real de la intención de voto y por tanto actuar de forma más realista. Los datos fueron empleados también en la comunicación de campaña, siendo claves en la compra de publicidad o en la elección de soportes para lanzar el mensaje. Por ejemplo, la participación de Obama en un encuentro con los lectores de Reddit se explica ya que concentra a un elevado número de electores targert de la campaña. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” EJEMPLOS REALES DE EMPRESAS DE ÉXITO DE BIG DATA 1.- NETFLIX: Es la Empresa más reconocida por el uso de datos y el BIG DATA, en particular. Todos conocemos el Sistema de Recomendación de Netflix, que recoge el comportamiento de los usuarios en la plataforma, y revisa aquellos contenidos que estamos viendo y cuales van relacionados unos a otros, y a partir de aquí infieren una probabilidad que veamos un determinado episodio, esto no hace más que usando el BIG DATA y la ciencia de datos, personalizando nuestras experiencias, que consumimos, y el contenido que más nos va a retener en la plataforma, que mejor uso de experiencia nos va a permitir. 2.- MAC DONALD’S: Todos sabemos que tiene sus famosos Kioskos digitales, donde puedes hacer tus pedidos, todo esto queda registrado en las pantallas que usan para personalizar la experiencia en función del momento del día, del tipo de consulta que estemos haciendo del pedido; el propio sistema muestra diferentes productos y esto a hecho que aumente las ventas en distintos mercados. 3.-GOOGLE.- Desarrolla constantemente nuevos productos y servicios que tienen grandes algoritmos de datos, además de utilizar grandes cantidades de datos para refinar incesantemente sus algoritmos de búsqueda y precisión en la publicación de anuncios. 4.-VERIZON.- Operador estadounidense con más de 80 millones de clientes emplea sus grandes cantidades de datos para optimizar la publicidad móvil. Así, en el momento en el que alguien se registra en su web como usuario se crea un identificador que permite que el anunciante utilice su información y por consiguiente pueda precisar la publicidad en función del usuario al que se dirija, beneficiando tanto a los potenciales clientes como a las empresas gracias a la segmentación. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 5.-AMAZON.-El gran gigante de retail es capaz de analizar una cantidad brutal de datos de clientes. Sus algoritmos le permiten recolectar, analizar y utilizar una cantidad masiva de datos procedentes del historial de búsqueda y compra. Por eso, son capaces de ofrecer recomendaciones con altas probabilidades de generar una compra, optimizar los precios y la cadena de suministro y detectar los fraudes. El secreto de su éxito está en sus herramientas avanzadas de análisis de big data, como los algoritmos publicitarios y el "Amazon Elastic MapReduce platform for machine learning". 6.-COCA COLA.- Con más de 500 marcas de refrescos que se venden a más de 200 países, Coca-Cola Company es la compañía de bebidas más grande del mundo. Cada día se consumen más de 1.9 mil millones de productos CocaCola en el mundo, sería lo mismo que afirmar que el 33% de la población mundial consume productos Coca-cola en un día. El análisis de datos se ha utilizado en áreas como desarrollo de producto. Por ejemplo, el lanzamiento del sabor “Cherry Sprite” en 2017 nació en los datos recolectados de las máquinas dispensadoras de gaseosa que permiten que los consumidores mezclen sus propias bebidas. Así, Coca-Cola pudo identificar la mezcla más popular y convertirla en una bebida lista para ser consumida. Además, Coca-Cola también recolecta y analiza los datos que generan sus 105 millones de seguidores en Facebook y 35 millones en Twitter, plataformas en las que producen interacciones acerca de sus productos aproximadamente cada 2 segundos. Con esta base tan amplia de interacciones e impresiones, la compañía puede tener una imagen clara de cómo se perciben sus productos en los diferentes países, qué tipo de personas los consumen, en dónde, en qué circunstancias y qué tan fieles son al producto. Estos son tan solo unos ejemplos prácticos de cómo Coca-Cola se ha convertido en el gigante de las bebidas gaseosas gracias al análisis de datos. Esto, mezclado con inteligencia artificial (IA) los han llevado a mejorar desde INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” sus plantas de embotellamiento hasta el funcionamiento de sus máquinas expendedoras. 7.-SPOTY FY.- Usa el Machine-Learning, o el aprendizaje automático aplicando diferentes logaritmos al árbol de decisiones, la máquina soporte lector, para conseguir resultados de personalización capaces de adivinar la música que vas a querer consumir. 11.- BIG DATA EN LA ACTUALIDAD 2019 ha sido un año clave en la puesta en marcha de los análisis del Big Data. Desde finales de 2018 podemos resaltar especialmente el cambio hacia la operacionalización de la canalización del Big Data, dado que, en la última década, ninguno de los sectores ha permanecido al margen de este cambio drástico. Mientras que muchas compañías tienen éxito en conseguir canales de Big Data para el aprendizaje de máquinas y casos de uso analítico en la producción, se necesita una cantidad increíble de esfuerzo para que se ejecuten y mantenerlos en funcionamiento. El aprendizaje automático, más conocido como Machine Learning (ML) será cada vez más cotidiano y las compañías lo emplearán para aumentar los canales de análisis operativo diario y las actividades normales de la línea de negocio. En todo caso, es la constante novedad de la tecnología, así como el enfoque en el análisis de datos ad hoc, lo que ha obstaculizado el progreso en la implementación de Big Data de calidad de producción. La clave de esta evolución es el reconocimiento de que existe una diferencia entre desarrollar un algoritmo de aprendizaje de máquina (ML) o ejecutar un pipeline de datos una vez en vez de ejecutarlo una y otra vez. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” Durante este 2020 habrá un número cada vez mayor de organizaciones que incorporarán el Big Data a sus empresas con una visión de datos singular para pasar de la analítica ad hoc a la plena operacionalización de la misma. Los consumidores ya convivimos en un mundo digital de expectativas instantáneas. Desde transacciones de ventas digitales hasta comentarios de marketing y refinamiento, todo el mundo empresarial actual basado en la nube se mueve rápidamente. Todas esas transacciones rápidas compilan datos al mismo ritmo. Hacer buen uso de esta información en tiempo real, a menudo significa la diferencia entre capitalizar la información para una visión de 360 grados de la audiencia objetivo, o perder clientes frente a los competidores que lo hacen. 11.1 ÁREAS PRINCIPALES EN LAS QUE LOS MACRODATOS SE UTILIZAN ACTUALMENTE CON UNA VENTAJA EXCELENTE EN LA PRÁCTICA 1. Comprensión y orientación a los clientes 2. Comprensión y optimización de los procesos comerciales 3. Cuantificación personal y optimización del rendimiento 4. Mejora de la atención sanitaria y la salud pública 5. Mejora del rendimiento deportivo 6. Mejora de la ciencia y la investigación 7. Optimización del rendimiento de la máquina y el dispositivo 8. Mejora de la seguridad y el cumplimiento de la ley 9. Mejora y optimización de ciudades y países 10.Servicios financieros, banca y seguros 11.2 PREOCUPACIONES DEL BIG DATA Big Data nos brinda información y oportunidades sin precedentes, pero también plantea inquietudes y preguntas que deben abordarse: Privacidad de los datos: los datos masivos que generamos ahora contienen mucha información sobre nuestras vidas personales, gran parte de la cual tenemos derecho a mantener la privacidad. Cada vez más, se nos INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” pide que logremos un equilibrio entre la cantidad de datos personales que divulgamos y la conveniencia que ofrecen las aplicaciones y los servicios impulsados por Big Data. Seguridad de los datos: incluso si decidimos que estamos felices de que alguien tenga nuestros datos para un propósito en particular, ¿podemos confiar en que los mantendrán seguros? Discriminación de datos: cuando se sepa todo, ¿será aceptable discriminar a las personas en función de los datos que tenemos sobre sus vidas? Ya utilizamos la calificación crediticia para decidir quién puede pedir dinero prestado, y los seguros se basan en gran medida en los datos. Podemos esperar ser analizados y evaluados con mayor detalle, y se debe tener cuidado de que esto no se haga de una manera que contribuya a hacer la vida más difícil a quienes ya tienen menos recursos y acceso a la información. 11.3 RECOMENDACIONES ANTES DE LLEVAR A CABO UNA ESTRATEGIA DE BIG DATA 1. Conocer primero cómo y dónde están los datos de su compañía, quién los maneja, quién tiene acceso y cuál es su calidad. La clave es tener conocimiento de acerca de dónde están sus datos e identificar las distintas fuentes de información que hay a su alcance. 2. Hay que entender cómo se están tomando en la compañía las decisiones: si en base a intuiciones o en datos tomados en tiempo real y saber cuál es el rendimiento de las acciones para actuar en consecuencia dentro del seno del negocio. 3. Seleccionar la correcta infraestructura en función a las necesidades y pensar cómo ajustar los procesos en nuestra organización para que ayuden a hacer más eficientes los datos y la tecnología. 4. Decidir qué dato es relevante y cuál no, de acuerdo con los objetivos del negocio, puede marcar la frontera entre el acierto y el error en la adopción de estrategias de Big Data en una organización. Así como la capacidad para identificar cuál es la tecnología adecuada. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” Los esfuerzos, por tanto, en este campo deben ir a: - Desarrollar analíticas relevantes que muestren con sencillez la evolución del negocio -Utilizar herramientas de analítica sencillas que puedan usar todo el personal de la empresa. Recuerde que las compañías que toman decisiones basadas en datos, ya son como media un 5 por ciento más productivas y un 6 por ciento más rentables. La digitalización ha aumentado de forma notable la información que está al alcance de las organizaciones y esto ha hecho que las empresas estén obligadas a contemplar los datos como una herramienta de crecimiento empresarial. 12.- CONCLUSIONES Las plataformas de Big Data al permitir el manejo de datos estructurados y no estructurados, presentan un gran beneficio para la toma de decisiones gracias a la facilidad de manejar todos esos tipos de datos, lo cual proporciona ventajas tanto para la vida profesional como para los diferentes campos de la ciencia. La estructura de un ambiente Big Data ayuda a mejorar la manipulación de los datos, optimizando la gestión de la información respecto a tiempo y costo, logrando obtener mejores resultados en las estadísticas para una buena toma de decisiones. Está muy claro que hemos pasado el tiempo en que las empresas deberían preguntarse si tienen que preocuparse por Big Data. Como muestran los ejemplos presentados, Big Data ya está revolucionando casi todas las industrias y aquellas empresas con una estrategia de datos clara se están convirtiendo en líderes en sus campos. INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO “VICTOR RAÚL HAYA DE LA TORRE” R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN “Año del Bicentenario del Perú: 200 Años de Independencia” 13.- BIBLIOGRAFÍA -https://www.cyberclick.es/numerical-blog/7-ejemplos-de-empresas-queusan-el-big-data-a-su-favor -https://prometeusgs.com/recomendaciones-big-data/ -file:///C:/Users/User/Desktop/big%20data/11data18hd.pdf -file:///C:/Users/User/Desktop/big%20data/BIG%20DATA%202%20dh.pdf -file:///C:/Users/User/Desktop/big%20data/big%20data%203%20dc2018.pdf -file:///C:/Users/User/Desktop/big%20data/Big_data%20365%20d2017.pdf -file:///C:/Users/User/Desktop/big%20data/Big-Data.-Retos-y-oportturismo.pdf -