Sentimiento Social En Latinoamérica Un Caso de Aplicación de Big Data En La Sociedad Reporte IBM – Octubre 2014 1 Indice INTRODUCCIÓN ...............................................................................................................................................3 UN CASO DE TWITTER EN LATINOAMÉRICA .....................................................................................................4 REFLEXIONES SOBRE UNA HEURÍSTICA DE DETECCIÓN DE U BICACIÓN ..............................................................................5 SOBRE LA PARTICIPACIÓN EN LATINOAMÉRICA ............................................................................................................7 REFLEXIONES SOBRE EL #HASHTAG Y SEMÁNTICA .......................................................................................................19 AGENDA Y TENDENCIAS EN LATINOAMÉRICA .............................................................................................................20 NOCIONES SOBRE EL POSITIVISMO EN LATINOAMÉRICA ................................................................................................26 LA I NFLUENCIA DE LOS MEDIOS (Y DE LOS “INFLUENCIADORES”) ...................................................................................28 REFLEXIONES E IDEAS FUTURAS ..............................................................................................................................29 2 Introducción A través de la historia, nuestra sociedad ha dedicado una buena parte de su existencia a la relación de los individuos; ya sea en segmentos cerrados o sectarios, o en grupos abiertos, las redes sociales han estado siempre presentes en nuestras vidas. Sin embargo, y también de manera regular, una buena parte de la sociedad busca cumplir con una necesidad inherente en las organizaciones. En personas y grupos. Nos referimos a la necesidad de comprender y entender. Nuestra ciencia ha dedicado grandes esfuerzos en generar fórmulas matemáticas, físicas, químicas, y tantas más, para describir los fenómenos de nuestro mundo, como una forma de comprender desde nuestras limitaciones- las complejidades de nuestro entorno. Incluso, muchas de estas teorías, como la Singularidad, han buscado explicarnos sobre estas experiencias donde - en determinados momentos - las fórmulas dejan de estar vigentes, producto de la excesiva complejidad. En ese punto es donde dejamos, básicamente, de “comprender” nuestros fenómenos. En este contexto, las redes sociales no han sido la excepción, mucho menos en Latinoamérica, donde proliferan y se explotan fuertemente. Por décadas, diversas teorías, leyes y estudios científicos han buscado establecer patrones y fórmulas con el objeto de comprender cómo nos relacionamos. Es así como la aplicación de la Teoría de Grafos, prácticas como la Gestión del Conocimiento o la Inteligencia Artificial, entre otras, nos han dotado de interesantes marcos de referencia para que nuestra comunidad científica nos ayude a entender cómo nos relacionamos. Por lo que resulta intuitivo entonces, pensar que a mayor cantidad de relaciones sociales, mayor complejidad, y mayor dificultad de comprender. Sin embargo, parece ser que con la entrada de la Internet 2.0 y la revolución móvil, entre otras, nos hemos visto en la necesidad de repensar las fórmulas clásicas sobre cómo nos relacionamos. Parecería ser que en lugar de analizar las “aristas” y las “conexiones” -en términos de Teoría de Grafos-, llega el momento en concentrarse en “el mensaje” que fluye por dichas conexiones, y la influencia que éste tiene en las personas. ¿Por qué? Principalmente porque hoy son los datos los que experimentan un nuevo comportamiento. Son los cientos de miles de “mensajes” por segundo que emitimos en las redes sociales digitales los que hoy centran nuestra atención buscando las “nuevas fórmulas”, que nos ayuden a entender este nuevo y más complejo mundo. Cómo las personas expresan de su vida, sus ciudades, sus servicios, la prensa, sus temores o sus gobiernos. Y es aquí donde realmente aparece la necesidad de lo que hemos denominado “Big Data”; en el hecho de analizar datos que se emiten con una velocidad, volumen y variedad nunca antes vistas. La información comienza a transformarse en nuevo recurso natural. En una ventaja competitiva para el sector privado y por cierto, para el público. En IBM, tenemos la convicción de que la tecnología debe ir de la mano con resolver problemas de nuestros tiempos y del futuro. Este reporte, busca exponer un estudio y sus reflexiones sobre las redes sociales,,desde una perspectiva de “Big Data” en Latinoamérica y en español. Esto, como una forma de generar líneas de trabajo donde tecnología y sociedad se unen para lograr un objetivo imperativo: Hacer un Mundo Mejor y Más Inteligente. 3 Un Caso De Twitter En Latinoamérica En la línea de buscar una aplicación interesante de Big Data en nuestra sociedad, decidimos analizar un conjunto masivo de datos en redes sociales. Esto, en una primera instancia, con la finalidad de detectar patrones y responder a algunas preguntas interesantes respecto a este estilo de herramientas -por ejemplo, el impacto de los “hashtags”, algo de lo que nos referiremos más adelante-. Tomando en cuenta que el análisis busca establecer una reflexión en el volumen, variedad y velocidad de los datos en estas redes (Big Data), Twitter se transformó en el canal más idóneo para 1 desarrollar este estudio , ya que brinda las características ideales para tener una primera línea de análisis dada su masividad y su velocidad de reacción. Durante el mes de Septiembre de 2014 nos conectamos a la interfaz (API – Application Programming 2 3 Interface) de streaming de Twitter buscando un flujo de tweets públicos y originales en español con el fin de habilitar su estudio. De igual forma, se aplicó especial cuidado en seleccionar tweets de personas naturales y no de cuentas específicas que representen medios, grupos o empresas. Esto, con el objeto de capturar y analizar mensajes y opiniones individuales más que grupales. Para esto, se generó una lista de descarte para omitir perfiles que no resultaban inclusivos en este estudio. Utilizando tecnología IBM Big Data (IBM InfoSphere Streams e IBM InfoSphere BigInsights), nuestra tecnología de análisis semántico (IBM Watson Content Analytics) y nuestra base de datos no estructurados en la nube (IBM Cloudant) - las tres diseñadas para procesar una cantidad masiva de datos para análisis -, se generó el ecosistema tecnológico para proceder al trabajo que expondremos en este reporte. De esta forma, nos encontramos con millones de tweets públicos para comenzar nuestro análisis. Los desafíos evidentemente comenzaron mucho antes de recibir siquiera unos pocos miles. Lo primero fue determinar la ubicación del tweet analizado, aspecto crucial en este trabajo. Aun cuando sólo fueron utilizados tweets públicos -abiertos-, se tuvo especial cuidado en la noindividualización, por lo que el nombre de cada cuenta fue reemplazado en nuestro análisis por un identificador interno que no tiene ninguna relación o mapeo con la identificación o nombre de la cuenta original. 1 Aunque esta tecnología puede ser utilizada naturalmente en otras redes sociales o en otras fuentes de datos. 2 La API de streaming de tweets provista por Twitter permite obtener una proporción (estadísticamente normal) de todos los tweets públicos emitidos, aunque sigue siendo una cantidad masiva de datos, como será explicado. 3 Un tweet público es aquel que esta abierto en su perfil y accesible, por ende, sin necesidad de solicitar un permiso o efectuar un “login”. Un tweet original es aquel que no es un “re-tweet” de otro existente, sino que uno que es generado por primera vez (aunque puede ser en respuesta a un tweet). 4 Reflexiones Sobre Una Heurística De Detección De Ubicación Una primer desafío del trabajo fue comprender qué dimensiones son las que son importantes (y posibles) de extraer a partir de una red social como Twitter. Sobre todo considerando que una buena parte de sus contenidos son expresados como texto libre. Por ejemplo, un usuario puede establecer como su ubicación, en su perfil, “SANTIAGO DE CHILE”, “STGO” o simplemente “EN EL FIN DEL MUNDO”. Nuestra base, entonces, fue centrarnos en 10 países de Latinoamérica como parte del estudio: ARGENTINA, BOLIVIA, CHILE, COLOMBIA, ECUADOR, MÉXICO, PARAGUAY, PERÚ, URUGUAY, y VENEZUELA, y ser capaces de poder detectar esta condición (idealmente la ciudad). Para esto, desarrollamos, una heurística que nos ayudó a recibir datos concluyentes respecto a cómo poder filtrar adecuadamente tweets para concentrarnos en los países mencionados. Para poder efectuarla, y buscando controlar precisamente la alta cantidad de mensajes capturados, nos concentramos en poder detectar primero el país, sea de manera literal o bien con alguna diferencia menor en su escritura4. Desarrollamos una base de datos con diferentes formas de llamar a un país (por ejemplo, hemos encontrado casos como “ARGENTINA”, “ARG” y “AGNTNA”, o “PARAGUAY” y “PGY”). E igualmente hicimos lo mismo con una gran mayoría de las ciudades de estos países expresados, también, de diferentes maneras. Luego de esto, comenzamos buscando el país o su gentilicio -en varias formas-. De no encontrarse, buscamos ciudades o sus gentilicios -también, en varias formas-. Finalmente, de no ser posible, buscamos palabras específcas de una localidad desde el tweet. De no cumplirse ninguna de las anteriores, se descartaba dicho tweet. Por supuesto que aun cuando la forma anterior generó resultados ampliamente favorables (ver siguiente gráfico), existieron condiciones de borde o textos complejos. Por ejemplo, “EL SALVADOR” es un país de Latinoamérica, pero a la vez una ciudad minera de CHILE. “VALENCIA” es una ciudad de VENEZUELA y a la vez de ESPAÑA, y “LOS ANGELES” se encuentra en CHILE y ESTADOS UNIDOS -donde muchos tienen su perfil en español-. 4 El análisis de diferencias menores se utilizó siguiendo la Distancia de Levenshtein, que en palabras simples es el número de operaciones para cambiar un texto en otro. Por ejemplo, la Distancia de Levenshtein (L) entre “COLOMBIA” y “CLMBIA” es 2 (2 inserciones de “O”). Por ende, L(1) sería la distancia para dos palabras, donde solo se requiere 1 operación para ser equivalentes (“CHILE” y “CHLE”), por ejemplo. 5 En estos casos (específicos) se procedió a trabajar con una “LISTA DE DESCARTE” para eliminar tweets desde países que no forman parte del estudio, o bien utilizar la propiedad “PLACE” de Twitter el cual simplifica el filtro, aunque está escasamente presente en los perfiles. También fue utilizada la geo-referencia del tweet -de estar presente, lo que también es escaso-. Una primera lección respecto a la geo-referencia tiene relación a que en una cantidad importante de casos se detectó cómo alguien -con un perfil de un país o ciudad determinados- estaba físicamente en otro lugar (por una visita o viaje, por ejemplo). En este sentido, y representando una proporción minoritaria entre los tweets, resultó más eficaz dejarlo como una forma de “dirimir” ante casos especiales, más que ser un método concluyente per-se. De esta manera, de los cerca de 1.300.000 tweets por día identificados utilizando una detección simple de país, logramos identificar poco más de 6.500.000 tweets por día para los 10 países del estudio. Si bien esto representa aproximadamente 75 tweets por segundo, durante las 08h00 AM y las 23h00 PM (en los respectivos países), se presentaron tasas cercanas a los 105 tweets por segundo en muchos casos. Un segundo desafío detectado, posteriormente, consistió en detectar un nivel etáreo para las opiniones, aspecto que logró ser cubierto mediante una combinación entre la “forma de escribir” y el perfil del usuario. En un segmento entre los 15-20 se detecta un uso intensivo de símbolos y “emoticons” que va disminuyendo conforme la edad avanza, momento en el que las palabras comienzan a expresarse de forma completa con menor “slang” y abreviaciones. Este comportamiento se fue contrastando con algunas palabras y conceptos clave del perfil del usuario (como por ejemplo “estudiante”, “universidad”, “padre”, “madre”, entre otros) con las que, finalmente, se pudo identificar un patrón general. Sobre este universo de tweets, que asciende a poco más de 134 millones, ya individualizados por segmento etáreo y país - en una buena parte por ciudad- se procedió a efectuar un estudio semántico en cuanto a contenido, que es en lo que nos centraremos. 6 Sobre La Participación en Latinoamérica Sobre una base de 134.027.928 millones de tweets públicos y originales identificados por país fue posible, entonces, detectar una ciudad asociada en un 77% de los casos (103.201.504 tweets), esto siguiendo el esquema referenciado previamente. Es interesante observar que del total de tweets donde fue posible detectar una ciudad, un 9% fue gracias al uso de palabras específicas de dicha zona. La gran mayoría se detectó a partir del mismo texto provisto en los campos “ubicación” o “descripción” del perfil de Twitter, mediante un análisis semántico. MÉXICO representa una mayoría importante de los tweets analizados (cerca de 28 millones, representando un 20,9%), seguido por VENEZUELA con un 16.9%. 7 Participación en MÉXICO, ECUADOR, COLOMBIA y VENEZUELA 8 Participación en CHILE, ARGENTINA, PARAGUAY, URUGUAY, PERU y BOLIVIA 9 Más allá del número de tweets analizados, resulta interesante una medida de usuarios activos 5 participando en dicha emisión. De esta manera, de los 16.429.477 millones de usuarios detectados , la siguiente es una distribución de estos en los 10 países analizados. MÉXICO lidera el número de usuarios activos, seguido por VENEZUELA, ARGENTINA, COLOMBIA y CHILE. De igual forma, dentro de este conjunto de usuarios detectados resulta interesante comprender un promedio diario de opiniones basados en 3 segmentos: un segmento de aquellos que “twitean” más de 7 veces al día, un segundo segmento comprendido entre los que twitean de 2 a 6 veces, y un tercer segmento con solo un tweet. Así, el primer segmento (usuarios altamente activos), se centra entre el 2,2% (URUGUAY) y el 9,2% (MÉXICO), donde una mayoría (salvo CHILE, BOLIVIA y ARGENTINA) emiten entre 2 y 6 mensajes originales por día. Puesto que en una cantidad importante de los tweets analizados fue posible detectar la ciudad de origen (según el perfil), el estudio también reveló la participación de las capitales en esta red social. De esta forma, entre un 58,2% y un 75,4% del flujo de tweets emanó desde las respectivas ciudades de cada país. 5 En general, se contabiliza un “usuario activo” como aquel que emite un post en un periodo de 30 días. De esta forma, los usuarios identificados se pueden considerar activos toda vez que el estudio fue dentro del plazo de 22 días durante el mes de Septiembre. 10 En una buena medida, la evolución en las comunicaciones junto con una oferta más extensa de navegación, Internet y dispositivos/smartphones en estas ciudades puede explicar esta extensa participación. Sin perjuicio de ello, en algunos casos se presentan sub-núcleos de participación (en casos como COLOMBIA, por ejemplo, donde CALI, MEDELLÍN y BARRANQUILLA concentran un 28,5%, estando el resto de los tweets distribuidos entre otros sectores y ciudades de dicho país). BOGOTÁ CALI MEDELLÍN BARRANQUILLA Un caso particular es el de BOLIVIA, donde - si bien una mayoría de los usuarios detectados poseen un perfil de LA PAZ (58,2%) -, se presenta una clara presencia de usuarios de SANTA CRUZ DE LA SIERRA. 11 LA PAZ y SANTA CRUZ DE LA SIERRA 12 CHILE experimenta una fuerte participación en su capital, SANTIAGO, aunque con participación activa en ciudades como VALPARAISO, VIÑA DEL MAR, CONCEPCIÓN y PUERTO MONTT. SANTIAGO VALPARAISO, VIÑA DEL MAR, QUILPUE CONCEPCIÓN PUERTO MONTT 13 PARAGUAY concentra su actividad en ASUNCIÓN (62,6%) seguido de CIUDAD DEL ESTE (28.1%). Se presentan otros sectores con participación menor (como el caso de CORONEL OVIEDO). ASUNCION, CIUDAD DEL ESTE URUGUAY, por otra parte, concentra su participación en MONTEVIDEO (71.1%), seguido de MALDONADO (17.5%). MONTEVIDEO y MALDONADO 14 ARGENTINA concentra su participación en BUENOS AIRES (64,5%), seguido de CÓRDOBA (23,1%) y ROSARIO (9,4%). BUENOS AIRES CÓRDOBA ROSARIO 15 USHUAIA es el sector más austral de AMÉRICA, con participación en esta red social (esto en el sector patagónico). USHUAIA (Tierra del Fuego) en ARGENTINA. PUNTA ARENAS en CHILE PERÚ posee fuerte participación de LIMA (75,4%), como epicentro en la participación en redes sociales seguido por ciudades como TRUJILLO (12,1%) y CHICLAYO (11,3%). LIMA 16 VENEZUELA posee la mayor participación en CARACAS (67,7%) seguido de MARACAIBO (14,4%) y VALENCIA (13,1%) CARACAS, MARACAY, VALENCIA MARACAIBO 17 Y finalmente, MÉXICO, concentra fuertemente su participación en este estudio en el DISTRITO FEDERAL (59,7%), seguido por GUADALAJARA (17,1%) y MÉRIDA (12,4%). VISTA GENERAL DE MÉXICO (ZONA OESTE) DISTRITO FEDERAL GUADALAJARA En conclusión, el uso de Twitter está altamente concentrado en las capitales de los países, pero surgen espontáneamente algunos sub-centros específicos de actividad, que no están necesariamente relacionados con el número de habitantes o tamaño de dicha ciudad. 18 Reflexiones Sobre el #hashtag y Semántica En la misma línea de lo enunciado en la introducción de este reporte, durante los últimos siglos nos hemos preocupado por buscar las mejores fórmulas matemáticas o físicas, entre otras, que nos ayuden a comprender la complejidad del mundo. Un operador original y práctico que se ha generado en esta red social ha sido el “hashtag” (#) y en una buena medida ha sido utilizado para ofrecer un filtro más simple a la hora de analizar tendencias (o “trending topics”). Un aspecto de este estudio buscó tener una noción numérica entre las opiniones capturables mediante “hashtag”, y aquellas que puedan ser capturadas directamente desde el texto (sin tomar en cuenta el filtro o “hashtag” involucrado). Ello porque no todos los participantes en Twitter poseen la disciplina de utilizar este operador, el que, a su vez, también posee una libre expresión; un usuario que quiera expresar una idea sobre el tráfico de Caracas podrá etiquetar su tweet como #TRAFICO, #TRAFICO_VENEZUELA, #TRAFICO_CARACAS y muchos más. Por ende, este operador simplifica (lo que por cierto aporta en un análisis), pero a la vez puede reducir el espacio muestral de interés sobre el análisis. Como veremos a continuación, una proporción reducida de los comentarios que formaron parte de este estudio -salvo pequeñas excepciones- tienen presencia de este operador, lo que lleva a la pregunta natural: ¿sigue siendo el “#” el mejor mecanismo para generar conclusiones? ¿O es mejor comenzar una nueva tendencia centrada en la semántica? Más aún en base a un idioma como el español que resulta interesantemente complejo para un análisis automatizado. 19 Agenda y Tendencias en Latinoamérica Uno de los principales objetivos de este estudio radica en poder aplicar principios de analítica semántica sobre los tweets que fueron capturados mediante la tecnología IBM Big Data (InfoSphere Streams). Si esta capa permitió poder obtener ubicación y nivel etáreo, es IBM Watson Content Analytics el que permitió poder distinguir temas y contenidos específicos para cada uno de los países. Como mencionamos en el apartado anterior, uno de los hallazgos de este estudio radicó en la presencia del operador “#” (hashtag), lo que establece el concepto denominado “trending topic”. Y la detección de lo que se ha denominado “Agenda de Latinoamérica” permitió confirmar la importancia que tiene hacer un análisis semántico sobre todos los tweets, en lugar de un subconjunto (solamente aquellos con algún “#”). Veamos, entonces, un ejemplo. Uno de los temas fuertemente presentes en CHILE tiene que ver con SEGURIDAD (con un 23,4% de las menciones efectuadas en el país como parte del estudio). Mientras un 16,1% de los hallazgos pertenece a un segmento entre 15-20 años, un 43,1% en un segmento 21-34 años, y un 35,1% sobre los 35 años (con una proporción de 5,7% no concluyente en su nivel etáreo). De dicho total, solo un 43,1% de las menciones tenía un hashtag asociado. Por lo que podemos preguntarnos:¿se aprovecha todo el universo de datos o solo se limita a la presencia de este operador? La siguiente tabla es un resumen de los 3 principales tópicos presentes en los 10 países que conforman el análisis, destacando la participación del tópico en el total de tweets analizados del país, el segmento etáreo asociado, y una proporción de la participación del operador “#” (respecto al total de tweets analizados del país). Como se podrá apreciar, los conceptos de EDUCACIÓN, SALUD y FUTURO resultan ser los más frecuentas en los países analizados. 20 Analicemos a continuación algunos puntos destacados respecto a los principales temas identificados del análisis en cada país. Se hará además mención a la capacidad propositiva de los usuarios, esto es, la acción de brindar ideas interesantes en los tópicos de la agenda. ARGENTINA ARGENTINA presenta (con una participación importante de 2,4 millones de usuarios activos) las tendencias FUTURO, EDUCACIÓN y SALUD PÚBLICA como parte de su discusión en los tweets analizados (representando 85,8% del total de tweets analizados). El primer tópico tiene una conexión hacia los conceptos de potenciar la “investigación”. De hecho, el 13,5% de los tweets analizados (que están dentro de los 41,1% sobre FUTURO) tiene relación con un llamado a fomentar la CIENCIA, la INVESTIGACIÓN y el DESARROLLO. La mayoría de estas emisiones proviene de un segmento 21-34 (estudiantes universitarios). En el mismo segmento (estudiantes universitarios), un 12,1% tiene relación con StartUps, básicamente ligados a consejos y difusión de proyectos nacionales. Este fenómeno está altamente alineado con resolver problemas del país, lo que establece un ejemplo del alineamiento entre INNOVACIÓN y APLICACIÓN SOCIAL. Es una tendencia altamente positiva que lidera Argentina junto con Colombia y Chile. El tópico EDUCACIÓN se enfoca en reanalizar la “manera en cómo se enseña” y establecer una discusión respecto a los indicadores actuales en los que se mide la educación, y está en concordancia con la agenda general de todos los países analizados. Esta discusión predomina en el segmento 21-34 años con un 36,8%. Finalmente el tópico SALUD PÚBLICA (representada por un 18,6% de los tweets analizados en este país) se centra fuertemente en tener mejores herramientas para la prevención de enfermedades, aspectos donde la innovación “ocupa un lugar protagónico”. Además se hace referencia al acceso a la salud tanto pública como privada. La capacidad propositiva de los tweets analizados del país se calculó en un 12,1%. BOLIVIA Aun cuando BOLIVIA posee baja participación en la red social Twitter (con poco más de 105.000 usuarios activos), sí se distinguen los tópicos ACCESO AL MAR, EDUCACIÓN y FUTURO FINANCIERO como los más recurrentes (representando un 76,8% del total). El primer tópico se presenta fuerte en un segmento entre los 21-34 años (donde es importante destacar una buena presencia del operador “#”, con un 61,2%), mientras que EDUCACIÓN (el que, de forma similar a ECUADOR, genera un debate interesante en los métodos de enseñanza y en los programas educacionales), está presente en un 28,2% de los estudiantes secundarios y un 54,1% en el segmento 21-34 años (en su mayoría estudiantes universitarios). El tópico FUTURO FINANCIERO se manifiesta en su mayoría en base a las relaciones bilaterales con diferentes países, para el fomento de importaciones y exportaciones, con una interesante presencia de un 70,2%, en el segmento 21-34 años. La capacidad propositiva de BOLIVIA se presenta en un 14,2% de los tweets analizados. 21 CHILE CHILE presenta los tópicos SEGURIDAD (23,4%), EDUCACIÓN (21,7%) y FUTURO FINANCIERO (17,2%) como los principalmente comentados en redes sociales a partir de los 12,8 millones de tweets analizados. El primer tema basa su discusión en la necesidad del uso de tecnología para controlar y/o detectar eventos relacionados a seguridad, aunque no presenta al país como un país inseguro. Esto se establece principalmente en el segmento 21-34 años (43,1%). Es en este punto donde existe una fuerte presencia propositiva en los tweets analizados. La EDUCACIÓN tiene una presencia mayoritaria en el segmento 21-34 años (44,1%), aunque también en el segmento 15-20 años (34,1%). Uno de los aspectos detectados es un foco en la “calidad de la educación”, en cuanto a discutir cuáles son los tópicos que deberían ser planteados en los programas educacionales (en escuelas y universidades). Se establece una fuerte capacidad propositiva en esta materia. Los temas relativos a FUTURO FINANCIERO se presentan principalmente en el segmento 35+ y centran sus fundamentos en una visión positiva que debe preservarse mediante una buena política económica. Además se menciona fuertemente la necesidad de fomentar la I+D en diferentes materias como, por ejemplo, los futuros sustitutos del cobre. La capacidad propositiva detectada en los tweets del país se calculó en un 22,1% (4to lugar de los 10 países analizados). COLOMBIA COLOMBIA posee una agenda fuertemente ligada a su proceso de paz (representando un 38,5% del total de tweets analizados en dicho país), con amplia participación de los 3 segmentos etáreos identificados. En este proceso se destacan los conceptos de “avance” y “diálogo”. Surge además un componente interesante en el segmento 15-20 años ligado a “querer saber más”, esto es, comprender desde una perspectiva histórica este proceso. El tópico de SEGURIDAD está a su vez presente, con un 21,2% de los tweets analizados del país, destacando una discusión mayoritariamente en un segmento 35+. Aquí se discuten principalmente conceptos asociados a “atracos”, “hurtos” y “pandillas”, pero a su vez con una noción de “red de apoyo social” interesante (es decir, una colaboración ciudadana para ir reportando eventos de seguridad). La ciudad de CALI, en este tópico, se manifestó con más frecuencia que BOGOTÁ. Finalmente, surge un tema muy particular relativo a TRANSPORTE (tópico que representa el 18,5% de los tweets analizados, y donde la proporción 35+ es la mayoritaria). Mientras BOGOTA manifiesta una agenda basada en potenciar un esquema integral de transporte público, MEDELLIN manifiesta conceptos positivos sobre su calidad de vida en base a este tópico. Y es que esta ciudad ha sido referenciada en numerosas ocasiones como un caso de referencia mundial en materia de TRANSPORTE. Un aspecto muy interesante en los tweets analizados de COLOMBIA es su altísima capacidad propositiva. Un 23,9% de los tweets tienen este carácter lo que lo deja en el primer lugar sobre este concepto dentro de los 10 países analizados. 22 ECUADOR La agenda de ECUADOR se centra en tres tópicos puntuales (alcanzando el 67,9% de todas las opiniones) que son EDUCACIÓN, FUTURO FINANCIERO y TRANSPORTE. De igual forma a lo detectado en otros países, la agenda en los temas de EDUCACIÓN se centra en el interés de los estudiantes en repensar los métodos de enseñanza y los programas de estudios. Un interés especial en explicar con mayor aplicabilidad conceptos matemáticos como Trigonometría entre otros. Lo capturado se centra, entonces, en conceptos de “calidad educacional”. En lo relativo a TRANSPORTE, existe una tendencia bien establecida (principalmente en QUITO) de potenciar esquemas alternativos de transporte como CICLOVIAS o METRO, buscando generar una mejor comprensión y educación en la gente y en cómo aprovecharla. Aspectos como “educación vial” aparecen también con fuerte presencia (incluso sugiriendo aplicar en los colegios algunas asignaturas en esa materia). El FUTURO FINANCIERO está enfocado básicamente en establecer qué debe hacer el país en materia de I+D, o potenciando a “start-ups”, así como también en el concepto de “imagen país”. Esto resulta de particular interés en un segmento educacional (entre 15-20 años). La capacidad propositiva de los tweets analizados es interesante además, reconociendo en un 23,7% este comportamiento (2do lugar de los 10 países analizados en el estudio). MÉXICO La agenda de MÉXICO se centra en los tópicos SEGURIDAD (43,4%), SALUD PÚBLICA (22,3%) y EDUCACIÓN (16,8%). En los conceptos de SEGURIDAD se detecta una fuerte presencia de protegerse en ciudades como el DISTRITO FEDERAL, y se destaca fuertemente (en su mayoría en un segmento 35+) una capacidad social en GUADALAJARA en términos de una colaboración en las alertas por situaciones de cuidado en esta materia. La SALUD PÚBLICA se centra principalmente en poder contar con mejor educación en mantener una “vida sana”, además de una mejor comprensión de enfermedades como la “diabetes” o el “dengue”, referenciados en varios momentos en las interacciones de los 3,6 millones de personas activas detectadas en el estudio (y que constituyen el país con mayor presencia y participación de los 10 países analizados). La EDUCACIÓN centra sus comentarios en potenciar programas educacionales que fomenten el interés y el entusiasmo en los estudiantes (junto con “métodos de enseñazas” innovadores), esto como una forma de contrarrestar la deserción y las inasistencias. Este es uno de los tópicos con mayor presencia de capacidad propostiva en los tweets analizados. La capacidad propositiva fue identificada en el 18% de los tweets analizados en este país. PARAGUAY En PARAGUAY se presenta un comportamiento ausente en otros países integrantes de este estudio. Se trata de acciones de COMPRA/VENTA (lo que representa un 38,1% de los tweets analizados de este país, y con fuerte presencia de “#”), presente mayoritariamente en un segmento 21-34 años. 23 En el segundo tópico predomina la EDUCACION (en su mayoría identificado en el segmento 21-34 años, con un 51,2%), centrando sus comentarios en una capacidad de generar programas educacionales integrales y más holísticos en los planes de estudios (en universidades). Finalmente, el FUTURO FINANCIERO es un tópico presente en el 15,3% de los tweets analizados del país (fuertemente considerado en el segmento 35+) y basa sus ideas principalmente en potenciar una mejor educación “financiera” en los jóvenes, y destacando positivamente además un crecimiento del país producto de condiciones climáticas en el sector agrícola. La capacidad propositiva identificada en los tweets de este país fue de un 19,1%. PERÚ La agenda de PERÚ se asocia a los conceptos de TRANSPORTE (38%), LÍMITES (18,4%) y SALUD PÚBLICA (15,2%). El primer tópico se presenta predominantemente en la ciudad de LIMA y es referenciada mayoritariamente en el segmento 21-34 años (41,1%). En este tema, las nociones de establecer nuevas formas de transporte público son de alta frecuencia, en particular la definición del concepto de METRO (también se hacen referencias hacia el caso de MEDELLÍN). LÍMITES, por otra parte, es un tema particular presente mayoritariamente en un segmento 35+ y con fuerte presencia de “#” (63,4%). Se basa principalmente a los temas limítrofes con Chile. Finalmente, SALUD PÚBLICA se presenta (con un 15,2% del total de tweets analizados del país, y con baja presencia de “#”), mayoritariamente en el segmento 35+. Nuevamente, aquí surgen referencias a educación sobre una “vida sana”, potenciar un concepto preventivo de enfermedades y generar discusión sobre el acceso general a la salud. La capacidad propositiva de los tweets analizados del país se calculó en 19,5% (5ta posición en los 10 países analizados). URUGUAY Los tópicos manifestados por URUGUAY se centran principalmente en SALUD PÚBLICA, EDUCACIÓN y FUTURO LABORAL (representando los 3 un 67,5% del total de tweets analizados en el país). El primer tópico, de manera similar a otros países, centra sus opiniones en un concepto de educación para la prevención de enfermedades y la generación de prácticas de “vida sana”. Se trata de un tema de fuerte presencia en un segmento 35+ (71,4%). En EDUCACION la discusión está orientada a programas educacionales en universidades y la duración de estas carreras. Se destaca, además, una referencia hacia la campaña denominada “Luces para aprender” (con un 7% de tweets asociados de la proporción 22,5%). Finalmente, el FUTURO LABORAL genera una presencia sustancial en el plano de oportunidades laborales y en los índices de desempleo manifestados por el país (esto referenciado por el segmento 21-34 años). La capacidad propositiva de los tweets analizados del país fue de un 23,4% (3er lugar en los 10 países analizados). 24 VENEZUELA VENEZUELA centra su agenda en los tópicos SEGURIDAD, SALUD PUÚBLICA y TRANSPORTE, (representando un 80,4% del total de tweets analizados de este país). El tópico de SEGURIDAD se centra principalmente en conceptos de “seguridad pública” y “delincuencia”, siendo fuertemente referenciado por un segmento 35+, aunque seguido de cerca por un segmento 21-34 años. Sin embargo, en ciudades como MARACAIBO se establece un comportamiento interesante manifestando un trabajo social en este tópico (por ejemplo, ciudadanos informando toda vez que alguna situación de cuidado se detecta). Este tópico tuvo la mayor presencia del operador “#” del estudio (65,6%). La SALUD PÚBLICA posee una fuerte tendencia hacia una mejor “educación” respecto a vivir sano y potenciar una conducta de bienestar informada. Si bien se detecta una discusión relativa a realizar deportes, un segmento importante (35+) considera sustancial potenciar el poder aprender a cocinar de una forma sana para poder evitar enfermedades y mantener un mejor estilo de vida. Finalmente, en materia de TRANSPORTE (representando un 18,1% del total de tweets analizados del país), una fuerte presencia de CARACAS establece que éste es un tópico de interés en dicha ciudad lo que se conecta con potenciar un esquema mayor de restricción vehicular, así como también el transporte público. La capacidad propositiva detectada en los tweets analizados fue de un 11,5%. 25 Nociones sobre el positivismo en Latinoamérica De forma complementaria a los conceptos presentados previamente en la agenda de temas de Latinoamérica (a la luz de los datos analizados en los tweets de cada país), resulta interesante comprender la connotación positiva o negativa de los segmentos del estudio. Procedimos a estudiar los 16,4 millones de usuarios mediante una regla basada en determinar la 6 proporción de tweets con una idea mayoritariamente positiva o mayoritariamente negativa . Si más de un 50% de los tweets de un usuario eran “mayoritariamente positivos”, se considera entonces que dicho usuario posee una capacidad en general positiva. Así fue posible entender una connotación en los 3 segmentos del estudio, tal como se muestra en la siguiente infografía y que muestra a COLOMBIA con una fuerte presencia de positivismo. Resulta interesante hacer ver que en esta capacidad, no se habla de que un usuario no se refiera a la contingencia de su país, sino más bien a la capacidad que dicho usuario presente sus opiniones en un tono constructivo, propositivo o con muy baja violencia en sus expresiones. De esta forma, desarrollando una aritmética respecto a la proporción de usuarios positivos, de aquellos negativos (en base a una relación POSITIVOS – NEGATIVOS + 100), fue posible tener un indicador básico con el cual poder proponer un orden en los 10 países analizados, tal como se muestra en la siguiente infografía. 6 Un problema científicamente abierto es la capacidad de poder determinar la “ironía” de forma automática. Si bien existen algunos conceptos generales establecidos (donde el uso de “emoticons” puede resultar útil), el método utilizado fue el de reconocer semánticamente ideas positivas y negativas en los tweets analizados. Si la proporción de ideas positivas supera el 75%, se considera dicho tweet com o “mayoritariamente positivo” (de forma análoga lo negativo). El resto forma parte de un segmento neutral o bien para ser analizado manualmente (puesto que podría implicar la presencia de ironías). 26 Es decir, COLOMBIA se presenta como un país altamente positivo en sus expresiones, seguido por PARAGUAY (pese a tener un espacio muestral inferior a COLOMBIA), MÉXICO y en cuarto lugar CHILE. Resultará interesante, en futuros estudios, efectuar mayor correlación de un indicador como éste con otros existentes en cada país. 27 La Influencia De Los Medios (y de los “influenciadores”) Un aspecto que también se buscó analizar respecto de los tweets analizados tiene que ver con su influencia, es decir, ¿qué impulsa a un usuario a emitir un tweet para la agenda expuesta previamente? Para ello, se realizó un ejercicio basado en analizar el día y hora en que algunas noticias específicas fueron emitidas en prensa escrita (diarios por Internet) en los países respectivos o bien a partir de un tweets de algún influenciador. Mediante esto se logró determinar fuertemente que con diferencia de escasos minutos se generaba una fuerte emisión de tweets sobre dicho tópico que en promedio tenía una duración de 3 horas a partir de la noticia (o tweet). Tomando en cuenta una ventana de 12 horas a partir de la emisión de una noticia (o el tweet influenciador), se pudo constatar que un 43,2% de los tweets analizados tenían por origen alguna noticia específica emanada de un medio de prensa escrita (por Internet) o bien de un tweet desde un influenciador. Claramente este indicador puede incrementarse tomando en cuenta influencia de radio y televisión, sin embargo esto será analizado en futuros reportes. Una proporción interesante de opinión (23,2%) fue catalogada como OPINIÓN INDEPENDIENTE. Esto es, un comentario que emana directamente de la persona sin una influencia visible, mientras que un 19,4% correspondió a comentarios VIVENCIALES (esto es, que no representan una opinión en, por ejemplo, “compartiendo con amigos”, “entrando al cine”, entre otros). Pese a esto, resulta de interés también hacer notar que del 43,2% de todos los tweets analizados (más de 134 millones) que representan influencia de la prensa o un tweet específico, un 8,3% tiene como origen un tweet desde un influenciador (11.205.242 tweets). Y es más, estos tweets tienen como origen un total de 155.378 tweets (durante el período del estudio). Es decir, en promedio, 72 tweets fueron generados por 1 tweet influenciador. Considerando que en general estas “respuestas” (desde tweets influenciadores) se presentan en su mayoría en una relación 1-1 respecto a usuarios, dicho de otra forma, el comentario de un influenciador puede generar la opinión de al menos 72 personas en promedio. También fue posible distinguir un patrón que hemos denominado influencia anímica y que consiste en la capacidad de transformar la tendencia positiva de una persona en una tendencia negativa a partir de un comentario (o viceversa). En un 62% de los usuarios que venían generando una tendencia positiva en sus comentarios (basados en los principios “mayoritariamente positivos” explicados previamente), se generó una tendencia en los siguientes 5 a 6 tweets hacia una tendencia negativa toda vez que un influenciador que siguen (o una noticia desde los medios) generó un comentario o tweet con una connotación negativa. Es decir, se genera un estado de “tendencia” tras una “noticia” que genera una reacción anímica durante un período de tiempo (y que no solo se limita al contexto del “tweet” influenciador, sino que a cualquier otro comentario emanado por el influenciado). 28 Estas observaciones, que bien forman parte de la teoría de grafos (propio del estudio de redes sociales), formará parte de futuros estudios a realizar sobre esta materia. Esto es, la “capacidad de influencia”. Reflexiones e ideas futuras Uno de los principales objetivos de este estudio es demostrar las capacidades y el impacto de la aplicación de tecnología Big Data para poder comprender un fenómeno como son las redes sociales en Latinoamérica e identificar un modelos de comportamiento en los países que conforman la región, que nos ayuden a entender las tendencias, influencias y visión que millones de personas tienen sobre sus ciudades, los servicios de las empresas, sus gobiernos o sus vidas. Si bien hoy este estudio realizó un análisis en la red social Twitter, la noción fue conocer un potencial. Por ende, una primera visión de futuros estudios se basa en extender estas ideas hacia otras redes sociales así como también en datos relativos a calidad de servicios (“mesas de ayuda” por ejemplo), entre otras posibles fuentes. De igual forma, poder considerar no solo la prensa escrita como fuente de influencia, sino que demás medios de radio o televisión. Lo fundamental es que los datos que generamos como ciudadanos (o miembros de una red social) son clave. Y comprenderlos no solo brinda una ventaja competitiva sino que ayuda a entender dónde están los intereses de las personas. Cuál es perfil de un cliente, o simplemente donde están las principales preocupaciones. El análisis de estos datos puede ser fundamental para empresas, para establecer un marketing más alineado a la visión de un cliente, para una mejor calidad de servicio, para crear programas educacionales que calcen con los intereses de los estudiantes, o para generar programas de gobierno que puedan alinearse con las expectativas de los ciudadanos. Entre muchos otros ejemplos. Al mismo tiempo, puede establecer una retroalimentación a un programa en curso, generar correcciones de rumbo. El análisis de datos tiene un potencial sin precedentes, porque vivimos una época donde la generación de estos adquiere una naturaleza de altísimo volumen, a altísima velocidad, con máxima variedad. Y hoy, el límite no es tecnológico. En IBM, tal como indicamos en la introducción, creemos que la tecnología correctamente aplicada puede generar progreso. La tecnología existe. Hoy el llamado es a interconectar las capacidades tecnológicas con diferentes disciplinas (sociología, lingüística, antropología, entre otras) para poder desarrollar conjuntamente modelos de “progreso” adecuados a la naturaleza y necesidades de los países. El momento de hacer esto es hoy. Son datos que surgen de “nosotros”. De las “personas” para las “personas”. 29 30