Subido por yeli

BIG DATA EXPO (4)

Anuncio
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
“BIG DATA”
UNIDAD DIDÁCTICA : INTEGRACIÓN DE LAS TECNOLOGÍAS DE
INFORMACIÓN Y COMUNICACIÓN
DOCENTE
: ING. JOSUÉ RIOS
-MINAYA PÉREZ, MIRTHA JUANA
INTEGRANTES:
-REYES DOMINGUEZ, RONALD ROSMEL
-GAMARRA ABANTO, PATRICIA ISELA
-JULCA ROJAS NINA MELIZA
-MARTÍNEZ SANCHEZ, YELIST
CICLO Y SECCIÓN
:
I-C
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
DEDICATORIA
Este trabajo está dedicado a DIOS, que nos ha dado la vida, y nos da la
fuerza para continuar en estos tiempos de crisis y de dolor que nos está
dejando el covid-19. A los profesores que abandonaron la instrucción
presencial y crearon entornos de aprendizaje completamente remotos de un
día para otro, y seguir entregando a sus alumnos su conocimiento para su
crecimiento personal y profesional y los compañeros por su aporte en la
conclusión satisfactoria de este trabajo.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
PRESENTACIÓN
A continuación, presentamos nuestro trabajo denominado “BIG DATA”, que
en el español significa, “DATOS MASIVOS”, La finalidad que tiene este
estudio es la exposición de los motivos por las que la gestión del Big Data
puede convertirse en una herramienta a favor de los empresarios.
Comentaremos la historia, evolución, importancia y demás características del Big
Data y su relación con el sector público, privado, cultura y social, y algunos
ejemplos de cómo algunas personas y empresas le han sacado provecho de
gestionar estos grandes datos.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
INDICE
1.- Introducción
2.- Historia y evolución del big data
3.- Qué es big data
4.- Características Fundamentales del Big Data
5.- Importancia del big data
6.- Surgimiento del big data
7.- Fases del proceso de transformación: de datos a información
8.- Tipos de datos en el Big Data
9.- Tecnologías Big data
10. Casos de éxito del Big Data
11. Big Data en la actualidad
11.1.- Áreas principales en los que los macro datos son una ventaja
11.2.-Preocupaciones del Big Data.
12. Conclusiones
13. Bibliografía
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
INTRODUCCIÓN
La era de la gestión de grandes datos masivos ha llegado para
quedarse, es lo que afirman muchos entendidos sobre el Big Data.
Informáticos, físicos, economistas, matemáticos, científicos políticos,
sociólogos y otros investigadores están pidiendo acceso a las
cantidades masivas de información producidos por y sobre las
personas, las cosas y sus interacciones. Y es que, en menos de
veinte años hemos visto como hemos pasado de guardar
documentos en una carpeta física a una carpeta digital en nuestro
ordenador. Este cambio de almacenaje se debe básicamente a la
enorme cantidad de datos que producimos diariamente y que son
imposibles de guardar físicamente, hasta llegar al punto en el que los
sistemas de procesamiento de datos cotidianos han quedado
obsoletos. Hoy en día se están desarrollado numerosos softwares de
procesamiento y análisis de este Big Data útiles en el ámbito
empresarial. Es importante para las empresas el tener acceso a
grandes bases de Big Data y la recopilación de datos para poder
procesarlos posteriormente en información relevante para así ayudar
a alcanzar los objetivos de las empresas.
Para poder comprender todo este entramado daremos unas
notas sobre qué es, que características tiene y expondremos
algunos ejemplos de técnicas analíticas, así como diversos ejemplos
de casos de utilización de Big Data en los sectores
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
2.- HISTORIA Y EVOLUCIÓN DEL BIG DATA
El nombre de Big Data es un nombre novedoso y el cual ha tenido un auge
muy importante en esta era de la tecnología, pero su concepto ha sido
implementado muchos años atrás, hay incluso quienes lo sitúan en el
paleolítico, cuando se hacían muescas en piedras o huesos para llevar un
registro de las actividades cotidianas y comerciales para poder gestionar la
duración del suministro de alimento. Años más tarde ha habido varios
descubrimientos que han reforzado el interés por los datos, como la invención
del ábaco supuso un empuje determinante al cálculo y análisis. O la
consolidación de las primeras grandes bibliotecas, como la de Alejandría, que
marca un antes y un después en el origen del almacenaje de datos, con una
lógica que relaciona el término con el primitivo interés de los seres humanos
por lograr y procesar la información. A continuación, ahondamos un poco más
en esta cuestión compartiendo la historia del Big Data:
En 1880 se realiza un censo en los Estados Unidos de América, censo que
tardo 8 años en tabularse, está sobre carga de información como fue
denominada, fue fundamental para que se enfocaran en la importancia que
tiene el tratamiento de la información y de la necesidad de desarrollar avances
en la metodología para el tratamiento de los datos.
Hernan Hollerith, empleado del censo estadounidense, desarrolla su máquina
tabuladora capaz de tomar la información depositada en tarjetas perforadas y
analizarlos; la “máquina de Hollerith” como fue nombrada, implementó un
sistema que revoluciono el valor de los datos. Con ella consigue reducir un
trabajo de 10 años a 3 meses.
Este ingeniero funda una compañía que posteriormente se conocería como
IBM.
En 1943 apareció la primera máquina de procesamiento de datos y fue
desarrollada por los británicos para descifrar los códigos nazis durante la
Segunda Guerra Mundial. Este dispositivo, llamado “Colossus” buscaba
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
patrones en mensajes interceptados a una velocidad de 5.000 caracteres por
segundo. De ese modo, se reduce la tarea de semanas enteras a solo unas
pocas horas.
En 1965 Se proyecta el “primer data center del mundo” en el gobierno de los
Estados Unidos, para almacenar 742 millones de declaraciones de impuestos y
175 millones de juegos de huellas dactilares en cinta magnéticas.
En la década de los 70 el análisis de los datos empieza hacer prioridad para
las predicciones y la toma de decisiones, el modelo Black-Sholes que se crea
en 1973 y su propósito era poder predecir el precio óptimo de las acciones en el
futuro.
En 1991, Nace Internet, a la postre, la gran revolución de la recolección,
almacenamiento y análisis de datos.
Tim Berners-Lee establece las
especificaciones de un sistema de red con interconexiones a nivel mundial
accesible para todos en cualquier lugar.
En 1997 debuta el buscador de Google y desde ese momento ya se convierte
en el motor de búsqueda de datos más utilizado de internet.
Se utiliza por primera vez el término 'Big Data'. Los investigadores de la NASA
Michael Cox y David Ellsworth afirman en un artículo (en inglés) que el gran
aumento de datos se estaba convirtiendo en un problema para los sistemas
informáticos.
En el año 2005 la web generada por los usuarios empieza a implementarse con
mayor rapidez, la web 2.0 como fue denominada se logra implementando
páginas web de estilo HTML con bases de datos basadas en SQL.
En este año también es creada una herramienta de código abierto hadoop cuyo
objetivo principal es el almacenamiento y el análisis de grandes datos.
En el año 2009 Cloudera, aparece en el mercado. Entran en escena empresas
que gestionan datos lo que permite a las empresas reunirlos en un lugar
centralizado, seguro y completamente administrado.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
En el año 2011 Lanzamiento de Hortonworks, competidos de Cloudera, líder de
plataformas de datos abiertas y conectadas permite acumular, analizar y actuar
sobre la información derivada de los datos y es el 100% de código abierto.
En el año 2012 Big data en las campañas políticas.
En el año 2014 Nace el concepto Location Intelligence, toda tecnología
enfocada a aportar información de valor procedente de datos geolocalizados,
facilitando de esta forma la toma de decisiones. Según Gartner el número de
empresas que lo usará se cuadruplicará en el año 2021.
En el año 2015 Nace el Internet de las Cosas, había 3,700 millones de cosas
conectadas en uso en este año.
Año 2020 El futuro del big data, los expertos ahora apunta a un aumento
estimado del 4300% en la generación anual de datos para el año 2021. Los
factores impulsores incluyen el cambio de las tecnología analógicas a digitales
y el rápido aumento en la generación de datos por parte de individuos y
empresas por igual.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
3.- ¿QUE ES BIG DATA ?
La primera pregunta que surge al mencionar este nuevo concepto es cómo se
define el big data. ¿Qué grande debe ser una base de datos o el número de
usuarios de una plataforma para ser considerado big data?, es importante
tener presente que el orden de magnitud de big data se mide en terabytes y
petabytes, no en gigabytes. Es decir, big data es un orden de magnitud mayor a
lo que antes de la revolución digital considerábamos grandes bases de datos,
incluyen datos estructurados, semiestructurados y no estructurados, de
diferentes orígenes.
Entonces, podemos denominar Big Data como el análisis y gestión de grandes
volúmenes de datos los cuales no pueden ser tratados de la manera
convencional, y los cuales deben cumplir con la ley de las 5V´s del Big Data,
volumen, variedad, velocidad, veracidad y “valor” de los datos.
Hoy en día la producción de datos es imparable y se realiza a una velocidad
vertiginosa por eso es importante saber que datos son importantes y de cuales
se puede prescindir para evitar una especie de “síndrome de Diógenes
informacional”.
IBM que es una de las empresas más importantes a nivel mundial sobre
tecnología define a Big Data como: “la tendencia en el avance de la tecnología
que ha abierto las puertas hacia un nuevo enfoque de entendimiento y toma de
decisiones, la cual es utilizada para describir enormes cantidades de datos
(estructurados, no estructurados y semi estructurados) que tomaría demasiado
tiempo y sería muy costoso cargarlos a un base de datos relacional para su
análisis. De tal manera que, el concepto de Big Data aplica para toda aquella
información que no puede ser procesada o analizada utilizando procesos o
herramientas tradicionales”.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
4.- CARACTERÍSTICAS FUNDAMENTALES DEL BIG DATA: LAS 5Vs
Anteriormente en las definiciones, se han mencionado brevemente cuatro de las
cinco “uves” que componen el Big Data, y que son volumen, variedad, velocidad
y veracidad. La última característica en añadirse, pero no menos importante es
el “valor” de datos Consideramos importante profundizar dentro de estas cinco
dimensiones del Big Data para comprender mejor el concepto:
Volumen: Nos referimos a cantidades enormes de datos generadas a cada
segundo. No estamos hablando de Terabytes, sino más bien de Zettabytes 1 o
Brontobytes2. Hoy en día generamos cada minuto la misma cantidad de datos
que los generados en el mundo desde el principio de los tiempos hasta el año
2008 (Mar, 2014). Esto hace que la mayoría de los datos sean muy grandes
para ser almacenados y complicados de analizar usando la tecnología actual de
bases de datos. Las nuevas herramientas de Big Data y analizar datos a través
de bases de datos que están repartidas por todo el mundo.
Velocidad: Al hablar de este término en relación con Big Data nos referimos
por una parte a la velocidad con la que se crean datos actualmente y por otro la
velocidad de procesamiento y análisis de estos. Con el “internet de las cosas”
se puede extraer más información del usuario, ya que éste da información, por
ejemplo, acerca de sus gustos cinematográficos y televisivos si hablamos de un
televisor con internet; o un “Smartwatch” sabrá todo sobre nuestras rutinas,
datos personales, etc. IDC afirma que actualmente hay 13 billones “cosas”
conectadas, y estima que en el año 2020 habrá aproximadamente 212 millones
en todo el mundo (IDC, 2015). Por otro lado, en las redes sociales podemos
percibir a la velocidad que viaja la información, por ejemplo, cuando mensajes o
videos se hacen virales en pocos segundos. Teniendo esto en cuenta, la
velocidad a la que se producirán los datos en un futuro será titánica y por ello
debemos adelantarnos, gestionándolos, transformándolos en información y
aportando respuestas rápidas en el momento preciso. La cantidad de segundos
que se tarde en procesar los datos, se considera un factor fundamental para
marcar diferencias entre empresas.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
Variedad: Como comentábamos en un inicio los datos no estructurados se
presentan en muy diversos formatos, ya sea vídeo, imágenes, emails, sensores
de geolocalización, redes sociales y un amplio etcétera. Antiguamente
estábamos centrados únicamente en los datos estructurados que cabían
perfectamente en tablas o bases de datos relacionales. En realidad, el 80% de
los datos del mundo se presentan en formatos no estructurados (Marr, 2014).
Es por ello por lo que resulta esencial conocer la información que ese
porcentaje de datos nos puede ofrecer. Gracias a diferentes herramientas que
se han ido desarrollando para gestionar Big Data podemos analizar y reunir
información sobre conversaciones, fotos, vídeos o grabaciones de voz. Además
del volumen, esta característica es la que hace que analizar estos tipos de
datos sea una ardua tarea. Otros ejemplos de datos Big Data son los siguientes
(ver figura 1).
Veracidad: (fiable con datos intrínsecamente imprecisos): es necesario valorar
la autenticidad de los datos, puesto que para llegar a conclusiones precisas es
necesario establecerse en datos reales.
Valor: Este componente es quizás el más importante. Resulta complicado que
las empresas se informaticen al nivel que se necesita el Big Data, y a su vez la
rentabilidad de esa inversión deberá ser alta. El valor que se extraiga de los
datos depende de la cantidad almacenada de los mismos y su tratamiento, y
viceversa. Si conseguimos muchos datos, pero no extraemos valor de ellos no
tendremos nada.
Visualización: Que seamos capaces de proyectar esos datos, mostrarlos de tal
forma que los datos se conviertan en información y decisiones.
Viabilidad: La inteligencia empresarial es un componente fundamental para
la viabilidad de un proyecto y el éxito empresarial. Se trata de la capacidad que
tienen las compañías en generar un uso eficaz del gran volumen de datos que
manejan.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
La inteligencia competitiva también se asocia con la innovación de los equipos
de trabajo y el uso de tecnologías empleadas. Una empresa inteligente analiza,
selecciona y monitoriza la información con el fin de conocer mejor el mercado
en el que opera, a sus clientes y diseñar estrategias eficaces.
Es necesario filtrar a través de esta información y seleccionar cuidadosamente
los atributos y factores que son capaces de predecir los resultados que más
interesan a las empresas. El secreto del éxito es descubrir las relaciones entre
las variables ocultas.
Una vez que conoces la viabilidad de tu organización, es el momento de
detallar el proyecto en una hoja de ruta, y desarrollar el plan de negocio.
5.- IMPORTANCIA DEL BIG DATA
La importancia del Big Data radica en que éste impacta tanto en la industria,
como en el negocio e incluso en nuestra sociedad y además ofrece una ventaja
competitiva considerable.
El análisis de big data permite a analistas, investigadores y usuarios de negocios
tomar decisiones mejores y más rápidas utilizando datos que antes eran inaccesibles
o inutilizables. Las empresas pueden utilizar técnicas de analítica avanzada, como
análisis de texto, machine learning, analítica predictiva, minería de datos, estadísticas
y procesamiento de lenguaje natural para obtener nuevos conocimientos de orígenes
de datos previamente sin explotar, independientemente o junto con los datos
empresariales existentes.
6.- SURGIMIENTO DEL BIG DATA
El big data surge principalmente por tres razones.
La primera es el gran número de usuarios de estas plataformas. En la
actualidad más del 55% de la población mundial tiene acceso a internet (4,333
millones de usuarios), lo que se traduce en un mercado potencial enorme para
estas plataformas.
Las redes sociales presentan las siguientes cifras:
 Facebook : más de 2,740 millones de usuarios
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”




You Tube : más de 2,291 millones de usuarios
WhatsApp : más de 2,000 millones de usuarios
Messenger: más de 1,300 millones de usuarios
Instagram : más de 1,221 millones de usuarios, etc.
Además del gran número de usuarios, la intensidad de uso que se le dan a
estas plataformas es igualmente impresionante. A continuación, se listan
algunas cifras de uso:
A nivel global, pasamos 6 horas y 54 minutos en internet.
Los usuarios de internet de todo el mundo pasan un promedio de 2 horas
y 25 minutos al día conectados a las plataformas sociales, el último
informe anual año 2021 revela que los usuarios de muchas economías en
desarrollo registran el mayor tiempo invertido en Facebook, Twitter,
Instagram y similares, como Filipinas (con 4 horas y 15 minutos) y Brasil
(con 3 horas y 42 minutos. En cambio, los internautas más despegados de
ellas se encuentran en algunos de los Estados con mayor renta per cápita
del planeta, como Japón (con 51 minutos) y Alemania (con 1 hora y 24
minutos) y España (con 1 hora y 54 minutos).
Estas cifras nos ayudan a dimensionar el tamaño de estas plataformas y la
intensidad de uso de estas. Y todas las fotos, vídeos y comentarios se van
acumulando minuto a minuto, generando lo que ahora conocemos como
big data.
La Segunda razón por la que surge el big data es por la gran
concentración de mercado de estas plataformas. Si existieran 1.000
Facebooks o YouTubes en el mundo, estas grandes bases de datos
estarían distribuidas en un número mayor de empresas y cada una de ellas
tendría bases de datos de menor tamaño. Pero dado que se trata de
medios digitales, el mercado en el que se compite es global y las
plataformas ganadoras tienden a ser mundiales.
La tercera razón por la que surge el big data se debe a la importancia que
tienen hoy en día los datos para el aprendizaje.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
7.- FASES DEL PROCESO DE TRANSFORMACIÓN: DE DATOS A
INFORMACIÓN
LA CADENA DE VALOR DE BIG DATA ESTÁ COMPUESTA POR
CUATRO FASES:
• Captura de datos: en esta fase la misión es recopilar datos
de todas las redes que tengamos a nuestra disposición.
• Procesamiento de datos: por medio de herramientas
tecnológicas específicas para este fin.
• Análisis de datos: en esta fase se emplean diversos
métodos de análisis.
• Ejecución de los datos: es la puesta en valor de todos los
datos recogidos y transformados en información relevante y
útil para nuestra empresa.
Las fases explicadas son procesadas de forma continuada, lo que permite
maximizar la información que se obtiene del entorno. Si no se gestiona de
forma adecuada los datos de los que dispone la organización puede existir
lo que se denomina Infoxicación, es decir, intoxicación por exceso de
información.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
8.- TIPOS DE DATOS EN EL BIG DATA
Existen diferentes tipos de datos en Big Data.
El Big Data es un todo, un proceso global, que empieza cuando damos con
un dato y termina cuando lo convertimos en información útil para el negocio, la
investigación o el objetivo que tengamos. Esto implica: la verificación del dato,
su cruce con otros datos para extraer patrones, etcétera. el Big Data abarca:

Los propios datos masivos.

Las herramientas en las que almacenamos esos datos.

Los software con los que los procesamos.

La información que extraemos de ese procesamiento y su aplicación.
Podemos afirmar que el Big Data vive por, para y gracias a los datos. ¿Qué
datos? Vamos a ello.
TIPOS DE DATOS SEGÚN SU ORIGEN
En
base
al origen
de
los
datos podemos
realizar
cinco
grandes
categorizaciones que son comunes en todos los análisis: datos de web y redes
sociales, Big Transaction Data, datos biométricos, datos generados por los
seres humanos y datos M2M.
WEB Y REDES SOCIALES
Este apartado comprende todos los datos que obtenemos de los usuarios
digitales a partir de sus interacciones en redes sociales. Cada like, cada
comentario, cada vez que compartimos un artículo o guardamos una foto, cada
vez que vemos una publicación y no interactuamos con ella, cada vez que
vemos una publicación y sí interactuamos con ella, básicamente, todo lo que
hacemos en redes sociales genera data.
Aquí también se incluyen los datos que se recogen en las páginas web a partir
de la navegación (los clics que hacemos, el tiempo que estamos en una
página, las páginas que visitamos cuando abrimos una web...), las ventas de
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
una e-commerce o las búsquedas que se realizan en Google y otros
buscadores, por poner algunos ejemplos.
BIG TRANSACCIÓN DATA
Los Big Transacción Data son datos más complicados de categorizar que los
que vienen, por ejemplo, de las redes sociales. Hablamos de los datos que se
generan en grandes transacciones, por ejemplo, todos los registros de la
facturación de una empresa, de las compras y ventas que ha hecho y los
diferentes canales que se emplean para ello, la gestión de su stock, los clientes
que
tiene,
etcétera.
Podemos
encontrar
estos
datos
en
formatos
semiestructurado o no estructurado (te explicamos más adelante qué es cada
uno y cuáles son sus diferencias).
DATOS BIOMÉTRICOS
Explicado de forma sencilla, los datos biométricos son los que aportamos los
seres humanos a partir de nuestras características de conducta, físicas o
fisiológicas. Por ejemplo, tu voz o la retina de tu ojo se pueden convertir en un
dato biométrico. De igual forma, la huella dactilar o el escáner facial con los que
desbloqueas el móvil son datos biométricos.
DATOS GENERADOS POR LOS SERES HUMANOS
En este grupo de datos generados por los seres humanos incluimos, por
ejemplo, una llamada a atención al cliente (seguro que te suena eso de "su
llamada podría ser grabada"). También son datos generados por seres
humanos el correo electrónico que dejamos cuando nos creamos una cuenta
de usuario en una plataforma o los formularios electrónicos que rellenamos
cuando hacemos una compra o nos suscribimos a una newsletter.
DATOS M2M
Machine to Machine o de máquina a máquina. Los M2M son los datos que se
obtienen a través de tecnologías que conectan a unos dispositivos con otros,
haciendo que haya intercomunicación entre ellos. Esta interconexión de
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
máquinas genera un gran volumen de datos que precisa un análisis
automatizado para tener sentido.
Por ejemplo, si una fábrica implementa un software de control de stock
inteligente, las propias máquinas comparten los datos, lo que permite realizar
un inventario automatizado. Otro ejemplo, los frigoríficos inteligentes,
capaces de detectar cuáles son los básicos de tu nevera, hacerte
automáticamente la lista de la compra e incluso realizar esa compra online por
sí solos en tu supermercado de confianza.
TIPOS DE DATOS POR CATEGORÍA
En la clasificación de datos por categoría distinguimos estructurados, no
estructurados e híbridos o semiestructurados.
ESTRUCTURADOS
Los datos estructurados son datos ordenados. Aquí agrupamos datos cuyo
formato está definido, al igual que su tamaño y su longitud. Precisamente por
eso, su procesamiento es más sencillo que en el caso de datos no
estructurados o semiestructurados. Piensa, por ejemplo, en una hoja de
cálculo.
NO ESTRUCTURADOS
Cuando estamos ante datos que no tienen una estructura interna identificable,
hablamos de datos no estructurados. Ejemplo: el batiburrillo de datos que
puede dar un GPS o tu reloj inteligente, que lo mismo te puede decir cuántas
horas has dormido o cuántas horas has tenido la calefacción puesta en casa.
Ahora, suma tu batiburrillo de datos que generan todos los usuarios que tienen
un reloj inteligente como el tuyo.
También son no estructurados los datos generados por los usuarios, como
los vídeos, audios, imágenes, PDF, etc. En ambos casos, la característica
común y más destacable es que estos datos pueden tener muchísimo valor,
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
pero ese valor solo se consigue cuando se ordenan, se identifican y se
almacenan.
DATOS HÍBRIDOS
Cuando hablamos de datos híbridos nos referimos a datos que no son
regulares y que no se pueden gestionar de forma estandarizada. Al final, los
datos semiestructurados están a caballo entre los estructurados y los no
estructurados: no están estructurados a la perfección, pero sí existe una
organización definida. En este caso, serían datos semiestructurados los datos
que están en formato XML o el HTML de una web.
Figura 1. Tipos de datos de Big Data.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
9.- TECNOLOGÍAS BIG DATA
Otro punto clave que se debe tener en cuenta son las diferentes
herramientas tecnológicas que se utilizan para la explotación de los
datos. Sin entrar en profundidad en ellas para explorar el Big Data
existen determinadas herramientas del desarrollador de software
libre y código abierto, Apache Software Foundation. Enumeramos
algunas de ellas:
•
HADOOP: es un sistema de código abierto que se usa para
almacenar, procesar y analizar grandes volúmenes de datos y que
almacena todo tipo de datos, tanto estructurados como no
estructurados y prácticamente cualquier archivo o formato. (Spain
Business School, 2016).
•
HDFS: es el sistema de archivos en el que se basa Hadoop.
(Salmeron, 2016).
•
YARN – MapReduce: YARN se ocupa de distribuir el trabajo
encontrando los datos que ha de procesar y gestiona la ejecución de
los programas. (Salmeron, 2016).
•
HBASE: es el sistema de base de datos que usa Hadoop y se
basa en BigTable de Google (Salmeron, 2016).
•
HIVE: apache Hive es un sistema de almacén de datos para
Hadoop, que permite realizar resúmenes de datos, consultas y
análisis de datos mediante HiveQL (un lenguaje de consultas similar
a SQL) (Spain Business School, 2016).
•
SPARK: es de IBM y sirve para gestionar las aplicaciones de
análisis de datos. (Spain Business School, 2016).
•
STORM: apache Storm es un sistema de cálculo de código
abierto, distribuido y con tolerancia a errores que permite procesar
datos en tiempo real con Hadoop. (Spain Business School, 2016).
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
10.- CASOS DE ÉXITO GRACIAS AL BIG DATA
El Big Data ha suscitado la máxima expectación en la industria durante la
última década. Con la recolección a gran escala de datos de varios lugares
como las comunicaciones de redes sociales, los rastros de datos de
navegación web, etc. El análisis de grandes datos y sus subsiguientes puntos
de acción basados en el conocimiento han marcado una gran diferencia en los
distintos sectores.
LA CAMPAÑA DE BIG DATA QUE DIO LA VICTORIA A OBAMA (2012)
El big data ha sido en gran parte el secreto que ha empujado la campaña
del candidato demócrata, Barack Obama, al éxito.
Lo primero que hicieron fue unir bases de datos, para tener una única con
toda la información. Con esta megabase, que sumaba la información que
recopilaban los voluntarios con la que se había conseguido gracias al registro
en la web de Obama, tenían una base de datos increíble e inmensa que
permitía trabajar de forma más efectiva para llegar al votante.
Así, pudieron alcanzar cifras muy elevadas de financiación (el reto estaba
en llegar a los 1.000 millones de dólares), algo que aportó, en parte, una
campaña de mailing en la que nada se dejó al aire. El análisis de los datos
permitió descubrir que Michelle Obama era un gran reclamo para conseguir
financiación en primavera o que a veces el nombre del responsable de
campaña, el propio Messina, era más efectivo que el vicepresidente Joe Biden.
El big data también les ayudó a lidiar con los estados complicados, como
Ohio. Allí, el uso de la tecnología de big data les permitió saber el estado real
de la intención de voto y por tanto actuar de forma más realista.
Los datos fueron empleados también en la comunicación de campaña,
siendo claves en la compra de publicidad o en la elección de soportes para
lanzar el mensaje. Por ejemplo, la participación de Obama en un encuentro con
los lectores de Reddit se explica ya que concentra a un elevado número de
electores targert de la campaña.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
EJEMPLOS REALES DE EMPRESAS DE ÉXITO DE BIG DATA
1.- NETFLIX: Es la Empresa más reconocida por el uso de datos y el BIG
DATA, en particular.
Todos conocemos el Sistema de Recomendación de Netflix, que recoge el
comportamiento de los usuarios en la plataforma, y revisa aquellos contenidos
que estamos viendo y cuales van relacionados unos a otros, y a partir de aquí
infieren una probabilidad que veamos un determinado episodio, esto no hace
más que usando el BIG DATA y la ciencia de datos, personalizando nuestras
experiencias, que consumimos, y el contenido que más nos va a retener en la
plataforma, que mejor uso de experiencia nos va a permitir.
2.- MAC DONALD’S: Todos sabemos que tiene sus famosos Kioskos digitales,
donde puedes hacer tus pedidos, todo esto queda registrado en las pantallas
que usan para personalizar la experiencia en función del momento del día, del
tipo de consulta que estemos haciendo del pedido; el propio sistema muestra
diferentes productos y esto a hecho que aumente las ventas en distintos
mercados.
3.-GOOGLE.- Desarrolla constantemente nuevos productos y servicios que
tienen grandes algoritmos de datos, además de utilizar grandes cantidades de
datos para refinar incesantemente sus algoritmos de búsqueda y precisión en
la publicación de anuncios.
4.-VERIZON.- Operador estadounidense con más de 80 millones de clientes
emplea sus grandes cantidades de datos para optimizar la publicidad móvil.
Así, en el momento en el que alguien se registra en su web como usuario se
crea un identificador que permite que el anunciante utilice su información y por
consiguiente pueda precisar la publicidad en función del usuario al que se dirija,
beneficiando tanto a los potenciales clientes como a las empresas gracias a la
segmentación.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
5.-AMAZON.-El gran gigante de retail es capaz de analizar una cantidad
brutal de datos de clientes. Sus algoritmos le permiten recolectar, analizar y
utilizar una cantidad masiva de datos procedentes del historial de
búsqueda y compra. Por eso, son capaces de ofrecer recomendaciones con
altas probabilidades de generar una compra, optimizar los precios y la
cadena de suministro y detectar los fraudes.
El secreto de su éxito está en sus herramientas avanzadas de análisis de big
data, como los algoritmos publicitarios y el "Amazon Elastic MapReduce
platform for machine learning".
6.-COCA COLA.- Con más de 500 marcas de refrescos que se venden a más
de 200 países, Coca-Cola Company es la compañía de bebidas más grande
del mundo. Cada día se consumen más de 1.9 mil millones de productos CocaCola en el mundo, sería lo mismo que afirmar que el 33% de la población
mundial consume productos Coca-cola en un día.
El análisis de datos se ha utilizado en áreas como desarrollo de producto.
Por ejemplo, el lanzamiento del sabor “Cherry Sprite” en 2017 nació en los
datos recolectados de las máquinas dispensadoras de gaseosa que permiten
que los consumidores mezclen sus propias bebidas. Así, Coca-Cola pudo
identificar la mezcla más popular y convertirla en una bebida lista para ser
consumida.
Además, Coca-Cola también recolecta y analiza los datos que generan sus 105
millones de seguidores en Facebook y 35 millones en Twitter, plataformas
en las que producen interacciones acerca de sus productos aproximadamente
cada 2 segundos. Con esta base tan amplia de interacciones e impresiones, la
compañía puede tener una imagen clara de cómo se perciben sus
productos en los diferentes países, qué tipo de personas los consumen, en
dónde, en qué circunstancias y qué tan fieles son al producto.
Estos son tan solo unos ejemplos prácticos de cómo Coca-Cola se ha
convertido en el gigante de las bebidas gaseosas gracias al análisis de datos.
Esto, mezclado con inteligencia artificial (IA) los han llevado a mejorar desde
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
sus plantas de embotellamiento hasta el funcionamiento de sus máquinas
expendedoras.
7.-SPOTY FY.- Usa el Machine-Learning, o el aprendizaje automático aplicando
diferentes logaritmos al árbol de decisiones, la máquina soporte lector, para
conseguir resultados de personalización capaces de adivinar la música que vas
a querer consumir.
11.- BIG DATA EN LA ACTUALIDAD
2019 ha sido un año clave en la puesta en marcha de los análisis del Big Data.
Desde finales de 2018 podemos resaltar especialmente el cambio hacia la
operacionalización de la canalización del Big Data, dado que, en la última
década, ninguno de los sectores ha permanecido al margen de este cambio
drástico. Mientras que muchas compañías tienen éxito en conseguir canales de
Big Data para el aprendizaje de máquinas y casos de uso analítico en la
producción, se necesita una cantidad increíble de esfuerzo para que se
ejecuten y mantenerlos en funcionamiento.
El aprendizaje automático, más conocido como Machine Learning (ML) será
cada vez más cotidiano y las compañías lo emplearán para aumentar los
canales de análisis operativo diario y las actividades normales de la línea de
negocio.
En todo caso, es la constante novedad de la tecnología, así como el enfoque
en el análisis de datos ad hoc, lo que ha obstaculizado el progreso en la
implementación de Big Data de calidad de producción. La clave de esta
evolución es el reconocimiento de que existe una diferencia entre desarrollar un
algoritmo
de aprendizaje de máquina (ML) o ejecutar un pipeline de datos una vez en vez
de ejecutarlo una y otra vez.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
Durante este 2020 habrá un número cada vez mayor de organizaciones que
incorporarán el Big Data a sus empresas con una visión de datos singular para
pasar de la analítica ad hoc a la plena operacionalización de la misma.
Los consumidores ya convivimos en un mundo digital de expectativas
instantáneas. Desde transacciones de ventas digitales hasta comentarios de
marketing y refinamiento, todo el mundo empresarial actual basado en la nube
se mueve rápidamente. Todas esas transacciones rápidas compilan datos al
mismo ritmo. Hacer buen uso de esta información en tiempo real, a menudo
significa la diferencia entre capitalizar la información para una visión de 360
grados de la audiencia objetivo, o perder clientes frente a los competidores que
lo hacen.
11.1 ÁREAS PRINCIPALES EN LAS QUE LOS MACRODATOS SE
UTILIZAN ACTUALMENTE CON UNA VENTAJA EXCELENTE EN LA
PRÁCTICA
1. Comprensión y orientación a los clientes
2. Comprensión y optimización de los procesos comerciales
3. Cuantificación personal y optimización del rendimiento
4. Mejora de la atención sanitaria y la salud pública
5. Mejora del rendimiento deportivo
6. Mejora de la ciencia y la investigación
7. Optimización del rendimiento de la máquina y el dispositivo
8. Mejora de la seguridad y el cumplimiento de la ley
9. Mejora y optimización de ciudades y países
10.Servicios financieros, banca y seguros
11.2 PREOCUPACIONES DEL BIG DATA
Big Data nos brinda información y oportunidades sin precedentes, pero también
plantea inquietudes y preguntas que deben abordarse:

Privacidad de los datos: los datos masivos que generamos ahora
contienen mucha información sobre nuestras vidas personales, gran parte de
la cual tenemos derecho a mantener la privacidad. Cada vez más, se nos
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
pide que logremos un equilibrio entre la cantidad de datos personales que
divulgamos y la conveniencia que ofrecen las aplicaciones y los servicios
impulsados por Big Data.

Seguridad de los datos: incluso si decidimos que estamos felices de que
alguien tenga nuestros datos para un propósito en particular, ¿podemos
confiar en que los mantendrán seguros?

Discriminación de datos: cuando se sepa todo, ¿será aceptable discriminar
a las personas en función de los datos que tenemos sobre sus vidas? Ya
utilizamos la calificación crediticia para decidir quién puede pedir dinero
prestado, y los seguros se basan en gran medida en los datos. Podemos
esperar ser analizados y evaluados con mayor detalle, y se debe tener
cuidado de que esto no se haga de una manera que contribuya a hacer la
vida más difícil a quienes ya tienen menos recursos y acceso a la
información.
11.3
RECOMENDACIONES
ANTES
DE
LLEVAR
A
CABO
UNA
ESTRATEGIA DE BIG DATA
1. Conocer primero cómo y dónde están los datos de su compañía, quién los
maneja, quién tiene acceso y cuál es su calidad. La clave es tener
conocimiento de acerca de dónde están sus datos e identificar las distintas
fuentes de información que hay a su alcance.
2. Hay que entender cómo se están tomando en la compañía las decisiones:
si en base a intuiciones o en datos tomados en tiempo real y saber cuál es el
rendimiento de las acciones para actuar en consecuencia dentro del seno del
negocio.
3. Seleccionar la correcta infraestructura en función a las necesidades
y pensar cómo ajustar los procesos en nuestra organización para que ayuden a
hacer más eficientes los datos y la tecnología.
4. Decidir qué dato es relevante y cuál no, de acuerdo con los objetivos del
negocio, puede marcar la frontera entre el acierto y el error en la adopción de
estrategias de Big Data en una organización. Así como la capacidad para
identificar cuál es la tecnología adecuada.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
Los esfuerzos, por tanto, en este campo deben ir a:
- Desarrollar analíticas relevantes que muestren con sencillez la evolución del
negocio
-Utilizar herramientas de analítica sencillas que puedan usar todo el personal
de la empresa.
Recuerde que las compañías que toman decisiones basadas en datos, ya son
como media un 5 por ciento más productivas y un 6 por ciento más rentables.
La digitalización ha aumentado de forma notable la información que está al
alcance de las organizaciones y esto ha hecho que las empresas estén
obligadas a contemplar los datos como una herramienta de crecimiento
empresarial.
12.- CONCLUSIONES
Las plataformas de Big Data al permitir el manejo de datos estructurados y
no estructurados, presentan un gran beneficio para la toma de decisiones
gracias a la facilidad de manejar todos esos tipos de datos, lo cual
proporciona ventajas tanto para la vida profesional como para los diferentes
campos de la ciencia.
La estructura de un ambiente Big Data ayuda a mejorar la manipulación de
los datos, optimizando la gestión de la información respecto a tiempo y
costo, logrando obtener mejores resultados en las estadísticas para una
buena toma de decisiones.
Está muy claro que hemos pasado el tiempo en que las empresas deberían
preguntarse si tienen que preocuparse por Big Data. Como muestran los
ejemplos presentados, Big Data ya está revolucionando casi todas las
industrias y aquellas empresas con una estrategia de datos clara se están
convirtiendo en líderes en sus campos.
INSTITUTO DE EDUCACIÓN SUPERIOR TECNOLÓGICO PÚBLICO
“VICTOR RAÚL HAYA DE LA TORRE”
R.D. N°554-2006-ED - R.D N.°879-2006-ED REVALIDACIÓN
“Año del Bicentenario del Perú: 200 Años de Independencia”
13.- BIBLIOGRAFÍA
-https://www.cyberclick.es/numerical-blog/7-ejemplos-de-empresas-queusan-el-big-data-a-su-favor
-https://prometeusgs.com/recomendaciones-big-data/
-file:///C:/Users/User/Desktop/big%20data/11data18hd.pdf
-file:///C:/Users/User/Desktop/big%20data/BIG%20DATA%202%20dh.pdf
-file:///C:/Users/User/Desktop/big%20data/big%20data%203%20dc2018.pdf
-file:///C:/Users/User/Desktop/big%20data/Big_data%20365%20d2017.pdf
-file:///C:/Users/User/Desktop/big%20data/Big-Data.-Retos-y-oportturismo.pdf
-
Descargar