Descargar documento - Observatorio digital

Anuncio
Sentimiento Social En Latinoamérica
Un Caso de Aplicación de Big Data En La Sociedad
Reporte IBM – Octubre 2014
1
Indice
INTRODUCCIÓN ...............................................................................................................................................3
UN CASO DE TWITTER EN LATINOAMÉRICA .....................................................................................................4
REFLEXIONES SOBRE UNA HEURÍSTICA DE DETECCIÓN DE U BICACIÓN ..............................................................................5
SOBRE LA PARTICIPACIÓN EN LATINOAMÉRICA ............................................................................................................7
REFLEXIONES SOBRE EL #HASHTAG Y SEMÁNTICA .......................................................................................................19
AGENDA Y TENDENCIAS EN LATINOAMÉRICA .............................................................................................................20
NOCIONES SOBRE EL POSITIVISMO EN LATINOAMÉRICA ................................................................................................26
LA I NFLUENCIA DE LOS MEDIOS (Y DE LOS “INFLUENCIADORES”) ...................................................................................28
REFLEXIONES E IDEAS FUTURAS ..............................................................................................................................29
2
Introducción
A través de la historia, nuestra sociedad ha dedicado una buena parte de su existencia a la relación
de los individuos; ya sea en segmentos cerrados o sectarios, o en grupos abiertos, las redes sociales
han estado siempre presentes en nuestras vidas. Sin embargo, y también de manera regular, una
buena parte de la sociedad busca cumplir con una necesidad inherente en las organizaciones. En
personas y grupos. Nos referimos a la necesidad de comprender y entender.
Nuestra ciencia ha dedicado grandes esfuerzos en generar fórmulas matemáticas, físicas, químicas,
y tantas más, para describir los fenómenos de nuestro mundo, como una forma de comprender desde nuestras limitaciones- las complejidades de nuestro entorno. Incluso, muchas de estas teorías,
como la Singularidad, han buscado explicarnos sobre estas experiencias donde - en determinados
momentos - las fórmulas dejan de estar vigentes, producto de la excesiva complejidad. En ese punto
es donde dejamos, básicamente, de “comprender” nuestros fenómenos.
En este contexto, las redes sociales no han sido la excepción, mucho menos en Latinoamérica,
donde proliferan y se explotan fuertemente. Por décadas, diversas teorías, leyes y estudios
científicos han buscado establecer patrones y fórmulas con el objeto de comprender cómo nos
relacionamos. Es así como la aplicación de la Teoría de Grafos, prácticas como la Gestión del
Conocimiento o la Inteligencia Artificial, entre otras, nos han dotado de interesantes marcos de
referencia para que nuestra comunidad científica nos ayude a entender cómo nos relacionamos. Por
lo que resulta intuitivo entonces, pensar que a mayor cantidad de relaciones sociales, mayor
complejidad, y mayor dificultad de comprender.
Sin embargo, parece ser que con la entrada de la Internet 2.0 y la revolución móvil, entre otras, nos
hemos visto en la necesidad de repensar las fórmulas clásicas sobre cómo nos relacionamos.
Parecería ser que en lugar de analizar las “aristas”
y las “conexiones” -en términos de Teoría de
Grafos-, llega el momento en concentrarse en “el
mensaje” que fluye por dichas conexiones, y la
influencia que éste tiene en las personas.
¿Por qué? Principalmente porque hoy son los
datos los que experimentan un nuevo
comportamiento. Son los cientos de miles de
“mensajes” por segundo que emitimos en las
redes sociales digitales los que hoy centran
nuestra atención buscando las “nuevas fórmulas”,
que nos ayuden a entender este nuevo y más
complejo mundo. Cómo las personas expresan de su vida, sus ciudades, sus servicios, la prensa,
sus temores o sus gobiernos.
Y es aquí donde realmente aparece la necesidad de lo que hemos denominado “Big Data”; en el
hecho de analizar datos que se emiten con una velocidad, volumen y variedad nunca antes vistas. La
información comienza a transformarse en nuevo recurso natural. En una ventaja competitiva para
el sector privado y por cierto, para el público.
En IBM, tenemos la convicción de que la tecnología debe ir de la mano con resolver problemas de
nuestros tiempos y del futuro. Este reporte, busca exponer un estudio y sus reflexiones sobre las
redes sociales,,desde una perspectiva de “Big Data” en Latinoamérica y en español. Esto, como una
forma de generar líneas de trabajo donde tecnología y sociedad se unen para lograr un objetivo
imperativo: Hacer un Mundo Mejor y Más Inteligente.
3
Un Caso De Twitter En Latinoamérica
En la línea de buscar una aplicación interesante de Big Data en nuestra sociedad, decidimos analizar
un conjunto masivo de datos en redes sociales. Esto, en una primera instancia, con la finalidad de
detectar patrones y responder a algunas preguntas interesantes respecto a este estilo de
herramientas -por ejemplo, el impacto de los “hashtags”, algo de lo que nos referiremos más
adelante-.
Tomando en cuenta que el análisis busca establecer una reflexión en el volumen, variedad y
velocidad de los datos en estas redes (Big Data), Twitter se transformó en el canal más idóneo para
1
desarrollar este estudio , ya que brinda las características ideales para tener una primera línea de
análisis dada su masividad y su velocidad de reacción.
Durante el mes de Septiembre de 2014 nos conectamos a la interfaz (API – Application Programming
2
3
Interface) de streaming de Twitter buscando un flujo de tweets públicos y originales en español
con el fin de habilitar su estudio. De igual forma, se aplicó especial cuidado en seleccionar tweets de
personas naturales y no de cuentas específicas que representen medios, grupos o empresas. Esto,
con el objeto de capturar y analizar mensajes y opiniones individuales más que grupales. Para esto,
se generó una lista de descarte para omitir perfiles que no resultaban inclusivos en este estudio.
Utilizando tecnología IBM Big Data (IBM InfoSphere Streams e IBM InfoSphere BigInsights), nuestra
tecnología de análisis semántico (IBM Watson Content Analytics) y nuestra base de datos no
estructurados en la nube (IBM Cloudant) - las tres diseñadas para procesar una cantidad masiva de
datos para análisis -, se generó el ecosistema tecnológico para proceder al trabajo que expondremos
en este reporte.
De esta forma, nos encontramos con millones de tweets públicos para comenzar nuestro análisis.
Los desafíos evidentemente comenzaron mucho antes de recibir siquiera unos pocos miles. Lo
primero fue determinar la ubicación del tweet analizado, aspecto crucial en este trabajo.
Aun cuando sólo fueron utilizados tweets públicos -abiertos-, se tuvo especial cuidado en la noindividualización, por lo que el nombre de cada cuenta fue reemplazado en nuestro análisis por un
identificador interno que no tiene ninguna relación o mapeo con la identificación o nombre de la
cuenta original.
1
Aunque esta tecnología puede ser utilizada naturalmente en otras redes sociales o en otras fuentes de datos.
2 La API de streaming de tweets provista por Twitter permite obtener una proporción (estadísticamente normal) de todos los
tweets públicos emitidos, aunque sigue siendo una cantidad masiva de datos, como será explicado.
3 Un tweet público es aquel que esta abierto en su perfil y accesible, por ende, sin necesidad de solicitar un permiso o efectuar
un “login”. Un tweet original es aquel que no es un “re-tweet” de otro existente, sino que uno que es generado por primera vez
(aunque puede ser en respuesta a un tweet).
4
Reflexiones Sobre Una Heurística De Detección De Ubicación
Una primer desafío del trabajo fue comprender qué dimensiones son las que son importantes (y
posibles) de extraer a partir de una red social como Twitter. Sobre todo considerando que una buena
parte de sus contenidos son expresados como texto libre. Por ejemplo, un usuario puede establecer
como su ubicación, en su perfil, “SANTIAGO DE CHILE”, “STGO” o simplemente “EN EL FIN DEL
MUNDO”.
Nuestra base, entonces, fue centrarnos en 10 países de Latinoamérica como parte del estudio:
ARGENTINA, BOLIVIA, CHILE, COLOMBIA, ECUADOR, MÉXICO, PARAGUAY, PERÚ, URUGUAY,
y VENEZUELA, y ser capaces de poder detectar esta condición (idealmente la ciudad). Para esto,
desarrollamos, una heurística que nos ayudó a recibir datos concluyentes respecto a cómo poder
filtrar adecuadamente tweets para concentrarnos en los países mencionados.
Para poder efectuarla, y buscando controlar precisamente la alta cantidad de mensajes capturados,
nos concentramos en poder detectar primero el país, sea de manera literal o bien con alguna
diferencia menor en su escritura4. Desarrollamos una base de datos con diferentes formas de llamar
a un país (por ejemplo, hemos encontrado casos como “ARGENTINA”, “ARG” y “AGNTNA”, o
“PARAGUAY” y “PGY”). E igualmente hicimos lo mismo con una gran mayoría de las ciudades de
estos países expresados, también, de diferentes maneras.
Luego de esto, comenzamos buscando el país o su gentilicio -en varias formas-. De no encontrarse,
buscamos ciudades o sus gentilicios -también, en varias formas-. Finalmente, de no ser posible,
buscamos palabras específcas de una localidad desde el tweet.
De no cumplirse ninguna de las anteriores, se descartaba dicho tweet.
Por supuesto que aun cuando la forma anterior generó resultados ampliamente favorables (ver
siguiente gráfico), existieron condiciones de borde o textos complejos. Por ejemplo, “EL SALVADOR”
es un país de Latinoamérica, pero a la vez una ciudad minera de CHILE. “VALENCIA” es una ciudad
de VENEZUELA y a la vez de ESPAÑA, y “LOS ANGELES” se encuentra en CHILE y ESTADOS
UNIDOS -donde muchos tienen su perfil en español-.
4 El análisis de diferencias menores se utilizó siguiendo la Distancia de Levenshtein, que en palabras simples es el número de
operaciones para cambiar un texto en otro. Por ejemplo, la Distancia de Levenshtein (L) entre “COLOMBIA” y “CLMBIA” es 2
(2 inserciones de “O”). Por ende, L(1) sería la distancia para dos palabras, donde solo se requiere 1 operación para ser
equivalentes (“CHILE” y “CHLE”), por ejemplo.
5
En estos casos (específicos) se procedió a trabajar con una “LISTA DE DESCARTE” para eliminar
tweets desde países que no forman parte del estudio, o bien utilizar la propiedad “PLACE” de Twitter
el cual simplifica el filtro, aunque está escasamente presente en los perfiles.
También fue utilizada la geo-referencia del tweet -de estar presente, lo que también es escaso-. Una
primera lección respecto a la geo-referencia tiene relación a que en una cantidad importante de
casos se detectó cómo alguien -con un perfil de un país o ciudad determinados- estaba físicamente
en otro lugar (por una visita o viaje, por ejemplo). En este sentido, y representando una proporción
minoritaria entre los tweets, resultó más eficaz dejarlo como una forma de “dirimir” ante casos
especiales, más que ser un método concluyente per-se.
De esta manera, de los cerca de 1.300.000 tweets por día identificados utilizando una detección
simple de país, logramos identificar poco más de 6.500.000 tweets por día para los 10 países del
estudio. Si bien esto representa aproximadamente 75 tweets por segundo, durante las 08h00 AM y
las 23h00 PM (en los respectivos países), se presentaron tasas cercanas a los 105 tweets por
segundo en muchos casos.
Un segundo desafío detectado, posteriormente, consistió en detectar un nivel etáreo para las
opiniones, aspecto que logró ser cubierto mediante una combinación entre la “forma de escribir” y el
perfil del usuario.
En un segmento entre los 15-20 se detecta un uso intensivo de símbolos y “emoticons” que va
disminuyendo conforme la edad avanza, momento en el que las palabras comienzan a expresarse de
forma completa con menor “slang” y abreviaciones. Este comportamiento se fue contrastando con
algunas palabras y conceptos clave del perfil del usuario (como por ejemplo “estudiante”,
“universidad”, “padre”, “madre”, entre otros) con las que, finalmente, se pudo identificar un patrón
general.
Sobre este universo de tweets, que asciende a poco más de 134 millones, ya individualizados por
segmento etáreo y país - en una buena parte por ciudad- se procedió a efectuar un estudio
semántico en cuanto a contenido, que es en lo que nos centraremos.
6
Sobre La Participación en Latinoamérica
Sobre una base de 134.027.928 millones de tweets públicos y originales identificados por país fue
posible, entonces, detectar una ciudad asociada en un 77% de los casos (103.201.504 tweets), esto
siguiendo el esquema referenciado previamente.
Es interesante observar que del total de tweets donde fue posible detectar una ciudad, un 9% fue
gracias al uso de palabras específicas de dicha zona. La gran mayoría se detectó a partir del mismo
texto provisto en los campos “ubicación” o “descripción” del perfil de Twitter, mediante un análisis
semántico.
MÉXICO representa una mayoría importante de los tweets analizados (cerca de 28 millones,
representando un 20,9%), seguido por VENEZUELA con un 16.9%.
7
Participación en MÉXICO, ECUADOR, COLOMBIA y VENEZUELA
8
Participación en CHILE, ARGENTINA, PARAGUAY, URUGUAY, PERU y BOLIVIA
9
Más allá del número de tweets analizados, resulta interesante una medida de usuarios activos
5
participando en dicha emisión. De esta manera, de los 16.429.477 millones de usuarios detectados ,
la siguiente es una distribución de estos en los 10 países analizados. MÉXICO lidera el número de
usuarios activos, seguido por VENEZUELA, ARGENTINA, COLOMBIA y CHILE.
De igual forma, dentro de este conjunto de usuarios detectados resulta interesante comprender un
promedio diario de opiniones basados en 3 segmentos: un segmento de aquellos que “twitean” más
de 7 veces al día, un segundo segmento comprendido entre los que twitean de 2 a 6 veces, y un
tercer segmento con solo un tweet.
Así, el primer segmento (usuarios altamente activos), se centra entre el 2,2% (URUGUAY) y el 9,2%
(MÉXICO), donde una mayoría (salvo CHILE, BOLIVIA y ARGENTINA) emiten entre 2 y 6 mensajes
originales por día.
Puesto que en una cantidad importante de los tweets analizados fue posible detectar la ciudad de
origen (según el perfil), el estudio también reveló la participación de las capitales en esta red social.
De esta forma, entre un 58,2% y un 75,4% del flujo de tweets emanó desde las respectivas ciudades
de cada país.
5
En general, se contabiliza un “usuario activo” como aquel que emite un post en un periodo de 30 días. De esta forma, los
usuarios identificados se pueden considerar activos toda vez que el estudio fue dentro del plazo de 22 días durante el mes de
Septiembre.
10
En una buena medida, la evolución en las comunicaciones junto con una oferta más extensa de
navegación, Internet y dispositivos/smartphones en estas ciudades puede explicar esta extensa
participación.
Sin perjuicio de ello, en algunos casos se presentan sub-núcleos de participación (en casos como
COLOMBIA, por ejemplo, donde CALI, MEDELLÍN y BARRANQUILLA concentran un 28,5%, estando
el resto de los tweets distribuidos entre otros sectores y ciudades de dicho país).
BOGOTÁ
CALI
MEDELLÍN
BARRANQUILLA
Un caso particular es el de BOLIVIA, donde - si bien una mayoría de los usuarios detectados poseen
un perfil de LA PAZ (58,2%) -, se presenta una clara presencia de usuarios de SANTA CRUZ DE LA
SIERRA.
11
LA PAZ y SANTA CRUZ DE LA SIERRA
12
CHILE experimenta una fuerte participación en su capital, SANTIAGO, aunque con participación
activa en ciudades como VALPARAISO, VIÑA DEL MAR, CONCEPCIÓN y PUERTO MONTT.
SANTIAGO
VALPARAISO, VIÑA DEL MAR, QUILPUE
CONCEPCIÓN
PUERTO MONTT
13
PARAGUAY concentra su actividad en ASUNCIÓN (62,6%) seguido de CIUDAD DEL ESTE (28.1%).
Se presentan otros sectores con participación menor (como el caso de CORONEL OVIEDO).
ASUNCION, CIUDAD DEL ESTE
URUGUAY, por otra parte, concentra su participación en MONTEVIDEO (71.1%), seguido de
MALDONADO (17.5%).
MONTEVIDEO y MALDONADO
14
ARGENTINA concentra su participación en BUENOS AIRES (64,5%), seguido de CÓRDOBA
(23,1%) y ROSARIO (9,4%).
BUENOS AIRES
CÓRDOBA
ROSARIO
15
USHUAIA es el sector más austral de AMÉRICA, con participación en esta red social (esto en el
sector patagónico).
USHUAIA (Tierra del Fuego) en ARGENTINA. PUNTA ARENAS en CHILE
PERÚ posee fuerte participación de LIMA (75,4%), como epicentro en la participación en redes
sociales seguido por ciudades como TRUJILLO (12,1%) y CHICLAYO (11,3%).
LIMA
16
VENEZUELA posee la mayor participación en CARACAS (67,7%) seguido de MARACAIBO (14,4%)
y VALENCIA (13,1%)
CARACAS, MARACAY, VALENCIA
MARACAIBO
17
Y finalmente, MÉXICO, concentra fuertemente su participación en este estudio en el DISTRITO
FEDERAL (59,7%), seguido por GUADALAJARA (17,1%) y MÉRIDA (12,4%).
VISTA GENERAL DE MÉXICO (ZONA OESTE)
DISTRITO FEDERAL
GUADALAJARA
En conclusión, el uso de Twitter está altamente concentrado en las capitales de los países, pero
surgen espontáneamente algunos sub-centros específicos de actividad, que no están
necesariamente relacionados con el número de habitantes o tamaño de dicha ciudad.
18
Reflexiones Sobre el #hashtag y Semántica
En la misma línea de lo enunciado en la introducción de este reporte, durante los últimos siglos nos
hemos preocupado por buscar las mejores fórmulas matemáticas o físicas, entre otras, que nos
ayuden a comprender la complejidad del mundo. Un operador original y práctico que se ha generado
en esta red social ha sido el “hashtag” (#) y en una buena medida ha sido utilizado para ofrecer un
filtro más simple a la hora de analizar tendencias (o “trending topics”).
Un aspecto de este estudio buscó tener una noción numérica entre las opiniones capturables
mediante “hashtag”, y aquellas que puedan ser capturadas directamente desde el texto (sin tomar en
cuenta el filtro o “hashtag” involucrado).
Ello porque no todos los participantes en Twitter poseen la disciplina de utilizar este operador, el que,
a su vez, también posee una libre expresión; un usuario que quiera expresar una idea sobre el tráfico
de Caracas podrá etiquetar su tweet como #TRAFICO, #TRAFICO_VENEZUELA,
#TRAFICO_CARACAS y muchos más. Por ende, este operador simplifica (lo que por cierto aporta en
un análisis), pero a la vez puede reducir el espacio muestral de interés sobre el análisis.
Como veremos a continuación, una proporción reducida de los comentarios que formaron parte de
este estudio -salvo pequeñas excepciones- tienen presencia de este operador, lo que lleva a la
pregunta natural: ¿sigue siendo el “#” el mejor mecanismo para generar conclusiones? ¿O es mejor
comenzar una nueva tendencia centrada en la semántica? Más aún en base a un idioma como el
español
que
resulta
interesantemente
complejo
para
un
análisis
automatizado.
19
Agenda y Tendencias en Latinoamérica
Uno de los principales objetivos de este estudio radica en poder aplicar principios de analítica
semántica sobre los tweets que fueron capturados mediante la tecnología IBM Big Data (InfoSphere
Streams). Si esta capa permitió poder obtener ubicación y nivel etáreo, es IBM Watson Content
Analytics el que permitió poder distinguir temas y contenidos específicos para cada uno de los
países.
Como mencionamos en el apartado anterior, uno de los hallazgos de este estudio radicó en la
presencia del operador “#” (hashtag), lo que establece el concepto denominado “trending topic”. Y la
detección de lo que se ha denominado “Agenda de Latinoamérica” permitió confirmar la importancia
que tiene hacer un análisis semántico sobre todos los tweets, en lugar de un subconjunto (solamente
aquellos con algún “#”).
Veamos, entonces, un ejemplo. Uno de los temas fuertemente presentes en CHILE tiene que ver con
SEGURIDAD (con un 23,4% de las menciones efectuadas en el país como parte del estudio).
Mientras un 16,1% de los hallazgos pertenece a un segmento entre 15-20 años, un 43,1% en un
segmento 21-34 años, y un 35,1% sobre los 35 años (con una proporción de 5,7% no concluyente en
su nivel etáreo). De dicho total, solo un 43,1% de las menciones tenía un hashtag asociado. Por lo
que podemos preguntarnos:¿se aprovecha todo el universo de datos o solo se limita a la presencia
de este operador?
La siguiente tabla es un resumen de los 3 principales tópicos presentes en los 10 países que
conforman el análisis, destacando la participación del tópico en el total de tweets analizados del país,
el segmento etáreo asociado, y una proporción de la participación del operador “#” (respecto al total
de tweets analizados del país).
Como se podrá apreciar, los conceptos de EDUCACIÓN, SALUD y FUTURO resultan ser los más
frecuentas en los países analizados.
20
Analicemos a continuación algunos puntos destacados respecto a los principales temas identificados
del análisis en cada país. Se hará además mención a la capacidad propositiva de los usuarios, esto
es, la acción de brindar ideas interesantes en los tópicos de la agenda.
ARGENTINA
ARGENTINA presenta (con una participación importante de 2,4 millones de usuarios activos) las
tendencias FUTURO, EDUCACIÓN y SALUD PÚBLICA como parte de su discusión en los tweets
analizados (representando 85,8% del total de tweets analizados).
El primer tópico tiene una conexión hacia los conceptos de potenciar la “investigación”. De hecho, el
13,5% de los tweets analizados (que están dentro de los 41,1% sobre FUTURO) tiene relación con
un llamado a fomentar la CIENCIA, la INVESTIGACIÓN y el DESARROLLO. La mayoría de estas
emisiones proviene de un segmento 21-34 (estudiantes universitarios).
En el mismo segmento (estudiantes universitarios), un 12,1% tiene relación con StartUps,
básicamente ligados a consejos y difusión de proyectos nacionales. Este fenómeno está altamente
alineado con resolver problemas del país, lo que establece un ejemplo del alineamiento entre
INNOVACIÓN y APLICACIÓN SOCIAL. Es una tendencia altamente positiva que lidera Argentina
junto con Colombia y Chile.
El tópico EDUCACIÓN se enfoca en reanalizar la “manera en cómo se enseña” y establecer una
discusión respecto a los indicadores actuales en los que se mide la educación, y está en
concordancia con la agenda general de todos los países analizados. Esta discusión predomina en el
segmento 21-34 años con un 36,8%.
Finalmente el tópico SALUD PÚBLICA (representada por un 18,6% de los tweets analizados en este
país) se centra fuertemente en tener mejores herramientas para la prevención de enfermedades,
aspectos donde la innovación “ocupa un lugar protagónico”. Además se hace referencia al acceso a
la salud tanto pública como privada.
La capacidad propositiva de los tweets analizados del país se calculó en un 12,1%.
BOLIVIA
Aun cuando BOLIVIA posee baja participación en la red social Twitter (con poco más de 105.000
usuarios activos), sí se distinguen los tópicos ACCESO AL MAR, EDUCACIÓN y FUTURO
FINANCIERO como los más recurrentes (representando un 76,8% del total).
El primer tópico se presenta fuerte en un segmento entre los 21-34 años (donde es importante
destacar una buena presencia del operador “#”, con un 61,2%), mientras que EDUCACIÓN (el que,
de forma similar a ECUADOR, genera un debate interesante en los métodos de enseñanza y en los
programas educacionales), está presente en un 28,2% de los estudiantes secundarios y un 54,1% en
el segmento 21-34 años (en su mayoría estudiantes universitarios).
El tópico FUTURO FINANCIERO se manifiesta en su mayoría en base a las relaciones bilaterales
con diferentes países, para el fomento de importaciones y exportaciones, con una interesante
presencia de un 70,2%, en el segmento 21-34 años.
La capacidad propositiva de BOLIVIA se presenta en un 14,2% de los tweets analizados.
21
CHILE
CHILE presenta los tópicos SEGURIDAD (23,4%), EDUCACIÓN (21,7%) y FUTURO FINANCIERO
(17,2%) como los principalmente comentados en redes sociales a partir de los 12,8 millones de
tweets analizados.
El primer tema basa su discusión en la necesidad del uso de tecnología para controlar y/o detectar
eventos relacionados a seguridad, aunque no presenta al país como un país inseguro. Esto se
establece principalmente en el segmento 21-34 años (43,1%). Es en este punto donde existe una
fuerte presencia propositiva en los tweets analizados.
La EDUCACIÓN tiene una presencia mayoritaria en el segmento 21-34 años (44,1%), aunque
también en el segmento 15-20 años (34,1%). Uno de los aspectos detectados es un foco en la
“calidad de la educación”, en cuanto a discutir cuáles son los tópicos que deberían ser planteados en
los programas educacionales (en escuelas y universidades). Se establece una fuerte capacidad
propositiva en esta materia.
Los temas relativos a FUTURO FINANCIERO se presentan principalmente en el segmento 35+ y
centran sus fundamentos en una visión positiva que debe preservarse mediante una buena política
económica. Además se menciona fuertemente la necesidad de fomentar la I+D en diferentes
materias como, por ejemplo, los futuros sustitutos del cobre.
La capacidad propositiva detectada en los tweets del país se calculó en un 22,1% (4to lugar de los 10
países analizados).
COLOMBIA
COLOMBIA posee una agenda fuertemente ligada a su proceso de paz (representando un 38,5% del
total de tweets analizados en dicho país), con amplia participación de los 3 segmentos etáreos
identificados. En este proceso se destacan los conceptos de “avance” y “diálogo”. Surge además un
componente interesante en el segmento 15-20 años ligado a “querer saber más”, esto es,
comprender desde una perspectiva histórica este proceso.
El tópico de SEGURIDAD está a su vez presente, con un 21,2% de los tweets analizados del país,
destacando una discusión mayoritariamente en un segmento 35+. Aquí se discuten principalmente
conceptos asociados a “atracos”, “hurtos” y “pandillas”, pero a su vez con una noción de “red de
apoyo social” interesante (es decir, una colaboración ciudadana para ir reportando eventos de
seguridad). La ciudad de CALI, en este tópico, se manifestó con más frecuencia que BOGOTÁ.
Finalmente, surge un tema muy particular relativo a TRANSPORTE (tópico que representa el 18,5%
de los tweets analizados, y donde la proporción 35+ es la mayoritaria). Mientras BOGOTA manifiesta
una agenda basada en potenciar un esquema integral de transporte público, MEDELLIN manifiesta
conceptos positivos sobre su calidad de vida en base a este tópico. Y es que esta ciudad ha sido
referenciada en numerosas ocasiones como un caso de referencia mundial en materia de
TRANSPORTE.
Un aspecto muy interesante en los tweets analizados de COLOMBIA es su altísima capacidad
propositiva. Un 23,9% de los tweets tienen este carácter lo que lo deja en el primer lugar sobre este
concepto dentro de los 10 países analizados.
22
ECUADOR
La agenda de ECUADOR se centra en tres tópicos puntuales (alcanzando el 67,9% de todas las
opiniones) que son EDUCACIÓN, FUTURO FINANCIERO y TRANSPORTE.
De igual forma a lo detectado en otros países, la agenda en los temas de EDUCACIÓN se centra en
el interés de los estudiantes en repensar los métodos de enseñanza y los programas de estudios. Un
interés especial en explicar con mayor aplicabilidad conceptos matemáticos como Trigonometría
entre otros. Lo capturado se centra, entonces, en conceptos de “calidad educacional”.
En lo relativo a TRANSPORTE, existe una tendencia bien establecida (principalmente en QUITO) de
potenciar esquemas alternativos de transporte como CICLOVIAS o METRO, buscando generar una
mejor comprensión y educación en la gente y en cómo aprovecharla. Aspectos como “educación vial”
aparecen también con fuerte presencia (incluso sugiriendo aplicar en los colegios algunas
asignaturas en esa materia).
El FUTURO FINANCIERO está enfocado básicamente en establecer qué debe hacer el país en
materia de I+D, o potenciando a “start-ups”, así como también en el concepto de “imagen país”. Esto
resulta de particular interés en un segmento educacional (entre 15-20 años).
La capacidad propositiva de los tweets analizados es interesante además, reconociendo en un 23,7%
este comportamiento (2do lugar de los 10 países analizados en el estudio).
MÉXICO
La agenda de MÉXICO se centra en los tópicos SEGURIDAD (43,4%), SALUD PÚBLICA (22,3%) y
EDUCACIÓN (16,8%).
En los conceptos de SEGURIDAD se detecta una fuerte presencia de protegerse en ciudades como
el DISTRITO FEDERAL, y se destaca fuertemente (en su mayoría en un segmento 35+) una
capacidad social en GUADALAJARA en términos de una colaboración en las alertas por situaciones
de cuidado en esta materia.
La SALUD PÚBLICA se centra principalmente en poder contar con mejor educación en mantener una
“vida sana”, además de una mejor comprensión de enfermedades como la “diabetes” o el “dengue”,
referenciados en varios momentos en las interacciones de los 3,6 millones de personas activas
detectadas en el estudio (y que constituyen el país con mayor presencia y participación de los 10
países analizados).
La EDUCACIÓN centra sus comentarios en potenciar programas educacionales que fomenten el
interés y el entusiasmo en los estudiantes (junto con “métodos de enseñazas” innovadores), esto
como una forma de contrarrestar la deserción y las inasistencias. Este es uno de los tópicos con
mayor presencia de capacidad propostiva en los tweets analizados.
La capacidad propositiva fue identificada en el 18% de los tweets analizados en este país.
PARAGUAY
En PARAGUAY se presenta un comportamiento ausente en otros países integrantes de este estudio.
Se trata de acciones de COMPRA/VENTA (lo que representa un 38,1% de los tweets analizados de
este país, y con fuerte presencia de “#”), presente mayoritariamente en un segmento 21-34 años.
23
En el segundo tópico predomina la EDUCACION (en su mayoría identificado en el segmento 21-34
años, con un 51,2%), centrando sus comentarios en una capacidad de generar programas
educacionales integrales y más holísticos en los planes de estudios (en universidades).
Finalmente, el FUTURO FINANCIERO es un tópico presente en el 15,3% de los tweets analizados
del país (fuertemente considerado en el segmento 35+) y basa sus ideas principalmente en potenciar
una mejor educación “financiera” en los jóvenes, y destacando positivamente además un crecimiento
del país producto de condiciones climáticas en el sector agrícola.
La capacidad propositiva identificada en los tweets de este país fue de un 19,1%.
PERÚ
La agenda de PERÚ se asocia a los conceptos de TRANSPORTE (38%), LÍMITES (18,4%) y SALUD
PÚBLICA (15,2%).
El primer tópico se presenta predominantemente en la ciudad de LIMA y es referenciada
mayoritariamente en el segmento 21-34 años (41,1%). En este tema, las nociones de establecer
nuevas formas de transporte público son de alta frecuencia, en particular la definición del concepto
de METRO (también se hacen referencias hacia el caso de MEDELLÍN).
LÍMITES, por otra parte, es un tema particular presente mayoritariamente en un segmento 35+ y con
fuerte presencia de “#” (63,4%). Se basa principalmente a los temas limítrofes con Chile.
Finalmente, SALUD PÚBLICA se presenta (con un 15,2% del total de tweets analizados del país, y
con baja presencia de “#”), mayoritariamente en el segmento 35+. Nuevamente, aquí surgen
referencias a educación sobre una “vida sana”, potenciar un concepto preventivo de enfermedades y
generar discusión sobre el acceso general a la salud.
La capacidad propositiva de los tweets analizados del país se calculó en 19,5% (5ta posición en los
10 países analizados).
URUGUAY
Los tópicos manifestados por URUGUAY se centran principalmente en SALUD PÚBLICA,
EDUCACIÓN y FUTURO LABORAL (representando los 3 un 67,5% del total de tweets analizados en
el país).
El primer tópico, de manera similar a otros países, centra sus opiniones en un concepto de educación
para la prevención de enfermedades y la generación de prácticas de “vida sana”. Se trata de un tema
de fuerte presencia en un segmento 35+ (71,4%).
En EDUCACION la discusión está orientada a programas educacionales en universidades y la
duración de estas carreras. Se destaca, además, una referencia hacia la campaña denominada
“Luces para aprender” (con un 7% de tweets asociados de la proporción 22,5%).
Finalmente, el FUTURO LABORAL genera una presencia sustancial en el plano de oportunidades
laborales y en los índices de desempleo manifestados por el país (esto referenciado por el segmento
21-34 años).
La capacidad propositiva de los tweets analizados del país fue de un 23,4% (3er lugar en los 10
países analizados).
24
VENEZUELA
VENEZUELA centra su agenda en los tópicos SEGURIDAD, SALUD PUÚBLICA y TRANSPORTE,
(representando un 80,4% del total de tweets analizados de este país).
El tópico de SEGURIDAD se centra principalmente en conceptos de “seguridad pública” y
“delincuencia”, siendo fuertemente referenciado por un segmento 35+, aunque seguido de cerca por
un segmento 21-34 años. Sin embargo, en ciudades como MARACAIBO se establece un
comportamiento interesante manifestando un trabajo social en este tópico (por ejemplo, ciudadanos
informando toda vez que alguna situación de cuidado se detecta). Este tópico tuvo la mayor
presencia del operador “#” del estudio (65,6%).
La SALUD PÚBLICA posee una fuerte tendencia hacia una mejor “educación” respecto a vivir sano y
potenciar una conducta de bienestar informada. Si bien se detecta una discusión relativa a realizar
deportes, un segmento importante (35+) considera sustancial potenciar el poder aprender a cocinar
de una forma sana para poder evitar enfermedades y mantener un mejor estilo de vida.
Finalmente, en materia de TRANSPORTE (representando un 18,1% del total de tweets analizados
del país), una fuerte presencia de CARACAS establece que éste es un tópico de interés en dicha
ciudad lo que se conecta con potenciar un esquema mayor de restricción vehicular, así como
también el transporte público.
La capacidad propositiva detectada en los tweets analizados fue de un 11,5%.
25
Nociones sobre el positivismo en Latinoamérica
De forma complementaria a los conceptos presentados previamente en la agenda de temas de
Latinoamérica (a la luz de los datos analizados en los tweets de cada país), resulta interesante
comprender la connotación positiva o negativa de los segmentos del estudio.
Procedimos a estudiar los 16,4 millones de usuarios mediante una regla basada en determinar la
6
proporción de tweets con una idea mayoritariamente positiva o mayoritariamente negativa . Si más
de un 50% de los tweets de un usuario eran “mayoritariamente positivos”, se considera entonces que
dicho usuario posee una capacidad en general positiva.
Así fue posible entender una connotación en los 3 segmentos del estudio, tal como se muestra en la
siguiente infografía y que muestra a COLOMBIA con una fuerte presencia de positivismo. Resulta
interesante hacer ver que en esta capacidad, no se habla de que un usuario no se refiera a la
contingencia de su país, sino más bien a la capacidad que dicho usuario presente sus opiniones en
un tono constructivo, propositivo o con muy baja violencia en sus expresiones.
De esta forma, desarrollando una aritmética respecto a la proporción de usuarios positivos, de
aquellos negativos (en base a una relación POSITIVOS – NEGATIVOS + 100), fue posible tener un
indicador básico con el cual poder proponer un orden en los 10 países analizados, tal como se
muestra en la siguiente infografía.
6
Un problema científicamente abierto es la capacidad de poder determinar la “ironía” de forma automática. Si bien existen
algunos conceptos generales establecidos (donde el uso de “emoticons” puede resultar útil), el método utilizado fue el de
reconocer semánticamente ideas positivas y negativas en los tweets analizados. Si la proporción de ideas positivas supera el
75%, se considera dicho tweet com o “mayoritariamente positivo” (de forma análoga lo negativo). El resto forma parte de un
segmento neutral o bien para ser analizado manualmente (puesto que podría implicar la presencia de ironías).
26
Es decir, COLOMBIA se presenta como un país altamente positivo en sus expresiones, seguido por
PARAGUAY (pese a tener un espacio muestral inferior a COLOMBIA), MÉXICO y en cuarto lugar
CHILE.
Resultará interesante, en futuros estudios, efectuar mayor correlación de un indicador como éste con
otros existentes en cada país.
27
La Influencia De Los Medios (y de los “influenciadores”)
Un aspecto que también se buscó analizar respecto de los tweets analizados tiene que ver con su
influencia, es decir, ¿qué impulsa a un usuario a emitir un tweet para la agenda expuesta
previamente?
Para ello, se realizó un ejercicio basado en analizar el día y hora en que algunas noticias específicas
fueron emitidas en prensa escrita (diarios por Internet) en los países respectivos o bien a partir de
un tweets de algún influenciador.
Mediante esto se logró determinar fuertemente que con diferencia de escasos minutos se generaba
una fuerte emisión de tweets sobre dicho tópico que en promedio tenía una duración de 3 horas a
partir de la noticia (o tweet).
Tomando en cuenta una ventana de 12 horas a partir de la emisión de una noticia (o el tweet
influenciador), se pudo constatar que un 43,2% de los tweets analizados tenían por origen alguna
noticia específica emanada de un medio de prensa escrita (por Internet) o bien de un tweet desde un
influenciador. Claramente este indicador
puede incrementarse tomando en cuenta
influencia de radio y televisión, sin embargo
esto será analizado en futuros reportes.
Una proporción interesante de opinión
(23,2%) fue catalogada como OPINIÓN
INDEPENDIENTE. Esto es, un comentario
que emana directamente de la persona sin
una influencia visible, mientras que un 19,4%
correspondió a comentarios VIVENCIALES
(esto es, que no representan una opinión en,
por ejemplo, “compartiendo con amigos”,
“entrando al cine”, entre otros).
Pese a esto, resulta de interés también hacer
notar que del 43,2% de todos los tweets
analizados (más de 134 millones) que
representan influencia de la prensa o un tweet
específico, un 8,3% tiene como origen un tweet desde un influenciador (11.205.242 tweets). Y es
más, estos tweets tienen como origen un total de 155.378 tweets (durante el período del estudio).
Es decir, en promedio, 72 tweets fueron generados por 1 tweet influenciador. Considerando que en
general estas “respuestas” (desde tweets influenciadores) se presentan en su mayoría en una
relación 1-1 respecto a usuarios, dicho de otra forma, el comentario de un influenciador puede
generar la opinión de al menos 72 personas en promedio.
También fue posible distinguir un patrón que hemos denominado influencia anímica y que consiste
en la capacidad de transformar la tendencia positiva de una persona en una tendencia negativa a
partir de un comentario (o viceversa).
En un 62% de los usuarios que venían generando una tendencia positiva en sus comentarios
(basados en los principios “mayoritariamente positivos” explicados previamente), se generó una
tendencia en los siguientes 5 a 6 tweets hacia una tendencia negativa toda vez que un influenciador
que siguen (o una noticia desde los medios) generó un comentario o tweet con una connotación
negativa.
Es decir, se genera un estado de “tendencia” tras una “noticia” que genera una reacción anímica
durante un período de tiempo (y que no solo se limita al contexto del “tweet” influenciador, sino que a
cualquier otro comentario emanado por el influenciado).
28
Estas observaciones, que bien forman parte de la teoría de grafos (propio del estudio de redes
sociales), formará parte de futuros estudios a realizar sobre esta materia. Esto es, la “capacidad de
influencia”.
Reflexiones e ideas futuras
Uno de los principales objetivos de este estudio es demostrar las capacidades y el impacto de la
aplicación de tecnología Big Data para poder comprender un fenómeno como son las redes sociales
en Latinoamérica e identificar un modelos de comportamiento en los países que conforman la región,
que nos ayuden a entender las tendencias, influencias y visión que millones de personas tienen
sobre sus ciudades, los servicios de las empresas, sus gobiernos o sus vidas.
Si bien hoy este estudio realizó un análisis en la red social Twitter, la noción fue conocer un
potencial. Por ende, una primera visión de futuros estudios se basa en extender estas ideas hacia
otras redes sociales así como también en datos relativos a calidad de servicios (“mesas de ayuda”
por ejemplo), entre otras posibles fuentes. De igual forma, poder considerar no solo la prensa escrita
como fuente de influencia, sino que demás medios de radio o televisión.
Lo fundamental es que los datos que generamos como ciudadanos (o miembros de una red social)
son clave. Y comprenderlos no solo brinda una ventaja competitiva sino que ayuda a entender
dónde están los intereses de las personas. Cuál es perfil de un cliente, o simplemente donde están
las principales preocupaciones.
El análisis de estos datos puede ser fundamental para empresas, para establecer un marketing
más alineado a la visión de un cliente, para una mejor calidad de servicio, para crear programas
educacionales que calcen con los intereses de los estudiantes, o para generar programas de
gobierno que puedan alinearse con las expectativas de los ciudadanos. Entre muchos otros
ejemplos.
Al mismo tiempo, puede establecer una retroalimentación a un programa en curso, generar
correcciones de rumbo.
El análisis de datos tiene un potencial sin precedentes, porque vivimos una época donde la
generación de estos adquiere una naturaleza de altísimo volumen, a altísima velocidad, con máxima
variedad. Y hoy, el límite no es tecnológico.
En IBM, tal como indicamos en la introducción, creemos que la tecnología correctamente aplicada
puede generar progreso. La tecnología existe. Hoy el llamado es a interconectar las capacidades
tecnológicas con diferentes disciplinas (sociología, lingüística, antropología, entre otras) para poder
desarrollar conjuntamente modelos de “progreso” adecuados a la naturaleza y necesidades de los
países.
El momento de hacer esto es hoy. Son datos que surgen de “nosotros”. De las “personas” para las
“personas”.
29
30
Descargar