LOS TWEETS COMO HERRAMIENTA DE ANÁLISIS DE LA CUESTIÓN NACIONAL EN ESPAÑA ENTRE PARTIDOS POLÍTICOS DE ÁMBITO ESTATAL Luis Navarro Ardoy, Universidad Pablo de Olavide, lnavard@upo.es (contacto) Arturo Montejo Ráez, Universidad de Jaén, amontejo@ujaen.es Manuel Carlos Díaz Galiano, Universidad de Jaén, mcdiaz@ujaen.es Resumen: Es difícil no estar de acuerdo en que la cuestión nacional en España es hoy, más que nunca, uno de los temas más relevantes en la agenda de los partidos políticos. A diferencia de nuestro pasado reciente, hablar hoy de nacionalismo español y de cuestiones relacionadas con el sentimiento nacional y el patriotismo español se ha convertido en algo cotidiano y frecuente. Hablar de ello es hoy una cuestión recurrente que pocas veces se deja de lado cuando se pregunta o se habla de España. Para estudiarlos entre los partidos políticos, se han utilizado encuestas de opinión, programas electorales, iniciativas parlamentarias y entrevistas a élites políticas. Nuestra propuesta pretende establecer una novedad al utilizar los tweets como instrumento de análisis del debate de la cuestión nacional en España. El gran reto metodológico supone procesar la ingente cantidad de información que proporciona Twitter y, tras organizarla en seis grupos (PP, PSOE, Podemos, C's, UPyD e IU), caracterizarlos con medidas de distancia e indicadores psicolingüísticos. En la comunicación presentaremos los resultados obtenidos. Palabras claves: Twitter, España, nación, redes sociales, partidos políticos. INTRODUCCIÓN Hoy, es difícil no estar de acuerdo en que las palabras son la materia prima de la política. Sin ellas no hay discurso, ni proyecto (Gutiérrez-Rubí, 2016). Cuando los temas que entran a formar parte del debate político tocan cuestiones relacionadas con la nación española, la terminología es muy importante. De forma general, lo es tanto por la relación que las ideologías de derechas y de izquierda mantienen con el nacionalismo como, de forma particular, por los desarrollos particulares que la idea de nación española ha tenido en nuestro país (Ferri y Ruiz, 2015). Las palabras referidas a España y a la idea de nación española han entrado con fuerza en el lenguaje político. Hoy, más que nunca, son términos muy activos en la agenda de 1 prácticamente todos los partidos políticos. A diferencia de nuestro pasado reciente, hablar hoy de nacionalismo español, de nación española y de patria y patriotismo se ha convertido en algo cotidiano y frecuente. Cuarenta años después de la muerte del general Franco, lo nuevo hoy es que nos encontramos en la situación insólita de que también los partidos de izquierda hablan de nación española, de patria y de patriotismo. Donde antes había una auto-contención nacionalista o una resistencia a hablar de España entre la izquierda (Navarro, 2016; Ferri y Ruiz, 2015; Muñoz, 2012; Mateo, 2005; De Blas, 2003; Bastida, 2002), hoy el discurso se ha normalizado y está menos monopolizado por la derecha política contemporánea. Hoy, flota en el ambiente un intento de la izquierda por ofrecer una idea de España desfranquizada. Quienes lo incorporaron con bastante éxito fueron líderes de la formación política morada. La utilización del término patria en Podemos para referirse a España es uno de los mejores ejemplos de lo que decimos (Juliana, 2015). Por lo tanto, las palabras que los partidos políticos eligen para designar una realidad no son arbitrarias. No es lo mismo hablar de España utilizando términos referidos a su estructura política-administrativa (organización territorial) que incluir términos o visiones más afectivas (sentimiento nacional, patriotismo...) (Easton, 1965; Anderson, 1991). Para los investigadores, se ha convertido en un campo de análisis muy rico la ingente cantidad que circula por Internet. Los Big Data (BD), también denominados macrodatos, son un nuevo producto de la sociedad del conocimiento hecho posible por las tecnologías digitales, las redes sociales y el cloud computing (González de la Fé, 2014). En este texto tratamos de caracterizar a los partidos políticos de ámbito estatal (PP, PSOE, Podemos, Cs, UPyD e IU) a partir del análisis de textos (mensajes) sobre España publicados en la popular red social Twitter. Nos centramos en las palabras relacionadas con la nación española y la organización territorial que dichos partidos ofrecen, a través de esta red social, a la ciudadanía. Mediante diversas técnicas, se propone el cálculo de características que pueda establecer medidas de similitud o distancia entre esos partidos junto a otros elementos que permitan conocer su comportamiento a nivel de manejo del lenguaje. El gran reto supone procesar la ingente cantidad de información que proporciona Twitter y, tras organizarla en seis grupos correspondientes a esos seis partidos, caracterizarlos con medidas de distancia e indicadores psicolingüísticos. En el siguiente apartado revisamos de manera breve el estado de la cuestión sobre el uso de las redes sociales para el análisis de las opiniones. Después presentamos la 2 metodología utilizada y justificamos cómo se han preparado los datos para el análisis posterior. En el cuarto epígrafe presentamos los resultados obtenidos. En las conclusiones se sintetizan los hallazgos principales y se reflexiona sobre sus potenciales implicaciones. ESTADO DE LA CUESTIÓN El uso de las redes sociales para el análisis de opiniones se ha convertido en una de las áreas de investigación más activas de estos recientes años (Martínez et al., 2014), consolidándose como servicios adicionales ofrecidos por empresas que facilitan informes y cuadros de mando en tiempo real sobre diversos flujos de información, como SocialMention 1 o Klout 2. En España se han llevado a cabo proyectos como AORESCU (Troyano et al., 2015), enfocado al análisis de opiniones de usuarios en redes sociales para el idioma español, lo cual implica la generación de recursos y el estudio de algoritmos. El trabajo de Vilares (2016) supone una revisión detallada de los estudios realizados en cuanto al uso de las redes sociales (en especial Twitter) para el análisis político, con la predicción de resultados electorales como un objetivo principal. De esta revisión extraemos que nos enfrentamos a un problema complejo, que merece ser estudiado en profundidad, y con varios elementos involucrados: el sesgo del grupo, la dominancia de género, la relación ideológica entre usuarios, etc. Recomendar productos en base a perfiles de usuario es algo que implica la generación, primero, de dichos perfiles (Guy et al., 2010), los cuales suelen construirse a partir de las interacciones de cada usuario e identificando ciertos elementos (como los tags utilizados). El estudio de perfiles de usuario en redes sociales es de gran interés para la industria, al permitir un encaminamiento de la información a destinatarios con mayor tasa de aceptación. De hecho, ya existe alguna patente al respecto, como la de Google para generar la lista de eventos de interés en usuarios de una red social (Bosworth et al., 2010). En nuestro caso, el interés se centra en caracterizar partidos políticos (grupos). Un trabajo reciente y destacado en este sentido es el de Zhang y Counts (2015). En él estudian datos recopilados de la red Twitter para analizar qué factores llevan a un cambio político a partir de los rasgos sociales detectados. Con un 87% de precisión, llegan a la conclusión de que, tras evidenciar las batallas culturales entre ideologías en el 1 2 www.socialmention.com klout.com 3 caso de la propuesta de una ley para el matrimonio de parejas de un mismo sexo, es posible construir un modelo estadístico que prediga la potencialidad de un cambio político. En este sentido, observaron empíricamente que las posiciones que mostraban mayor carga emocional y un menor número de integrantes rara vez conducía a dicho cambio. Todo un ejemplo que refleja la posibilidad de modelar ideologías a partir de macrodatos. PREPARACIÓN DE LOS DATOS Con el objetivo de explorar qué palabras relacionadas con la cuestión nacional en España difundían los partidos políticos en Twitter, diseñamos la siguiente estrategia. Recopilamos publicaciones de la popular red social Twitter durante 23 días no siempre consecutivos entre los meses de octubre y noviembre de 2015. Los días monitorizados responden al contexto de unas "inéditas" elecciones generales del 20D de 2015 porque todas las encuestas preveían el fin del bipartidismo y la entrada en la arena política de formaciones emergentes como Ciudadanos y Podemos. Se recogieron datos antes (recogida en periodo preelectoral) y después de dichas elecciones (recogida en periodo postlectoral). En concreto, para el mes de octubre se han monitorizado los días 20, 21, 28, 29, 30 y 31. Para noviembre del 1 al 10, el día 12 y del 19 al 24. Los días concretos así como las horas de captura han respondido a la disponibilidad de la red y de la infraestructura de almacenamiento. Durante la semana previa a la captura de datos estuvimos rastreando diferentes cuentas de Twitter de los seis partidos políticos de ámbito estatal que nos interesaban analizar (PP, PSOE, Podemos, C’s, UPyD e IU). Además de las cuentas oficiales, incluimos a otras de los líderes más activos en esta red social basándonos fundamentalmente en el mayor número de tweets y el número de seguidores 3. Finalmente, seleccionamos las siguientes: PP: @PPopular, @marianorajoy, @EsperanzAguirre, @mdcospedal, @Sorayapp PSOE: @PSOE, @sanchezcastejon, @_susanadiaz, @patxilopez, @micaela_navarro Ciudadanos: @CiudadanosCs, @Albert_Rivera, @ferdeparamo, @InesArrimadas, @malonsocs, @CiudadanoVille Podemos: @ahorapodemos, @Pablo_Iglesias_, @ierrejon Izquierda Unida: @iunida, @agarzon, @GLlamazares UPyD: @UPYD, @Herzogoff 3 La lista de usuarios más “activos” en la red nos resultó de utilidad para la selección de la muestra (http://www.twitter-espana.com/categoria/politica). En todo caso, conviene saber que este es un estudio exploratorio. 4 Los datos han sido extraídos directamente de las mencionadas cuentas de Twitter, a través de su Interfaz de Programación de Aplicaciones (siglas API en inglés 4) que permite que un programa pueda solicitar y descargar tweets. En nuestro caso, el programa utilizado para comunicarse con Twitter ha sido Logstash 5, gracias a su módulo de conexión con Twitter. Una vez descargados todos los tweets, se han guardado usando Elastic-Search 6 como sistema de almacenamiento, el cual permite un acceso rápido a los mismos con buen rendimiento. Los tweets han sido filtrados y procesados de la siguiente forma: 1. Sólo se conserva la información relativa al texto del tweet (no se consideran metadatos adicionales como autor, hora y fecha o lugar). 2. Sólo se consideran los tweets con un mínimo de 6 términos. 3. Se descartan retweets, es decir, aquellos que son reenvíos de tweets de otros usuarios. 4. Se descartan tweets con enlaces pues la interpretación del mensaje implicaría una comprensión del contenido de la página web apuntada. 5. Se normalizan los textos dejando todo a minúsculas, sin tildes y comprimiendo repeticiones de letras a dos ocurrencias (“hoooola” y “HOOOLA” pasarían a ser “hoola”). Las estadísticas de los tweets obtenidos tras el filtrado y el procesamiento son las siguientes: Tabla I. Estadísticas del corpus Días Total de tweets Volumen de datos Tamaño vocabulario 28 5,530,927 tweets 554 MB 159,587 términos RESULTADOS Una vez preparados los datos, presentamos los resultados obtenidos. Mostramos en un primer momento las palabras más frecuentes utilizadas en Twitter por el PP, PSOE, Podemos, C’s, UPyD e IU. Intentamos aproximarnos a la cuestión nacional en España a través de un conteo y un ranking de palabras. Tendremos en cuenta la importancia de cada palabra (el puesto que ocupa en el ranking de las veinte más utilizadas por cada partido), así como la frecuencia de aparición en términos absolutos y el porcentaje de 4 5 6 https://dev.twitter.com/rest/public https://www.elastic.co/products/logstash https://www.elastic.co/ 5 cada palabra de cada partido respecto al total de apariciones. En un segundo momento, nos interesa caracterizar a esos partidos a través del lenguaje utilizado. Tanto en el primer caso como en el segundo, analizamos las particularidades de cada partido y exploramos la existencia de patrones comunes de comportamiento. Frecuencia y ranking de palabras De las palabras más frecuentes relacionadas con la cuestión nacional en Twitter de los partidos políticos de ámbito estatal (PAE), "país" es la única que aparece entre las veinte primeras de todos los partidos (véase Figura 1). Además, en todos, excepto en UPyD, aparece entre las tres primeras más frecuentes de cada partido. Como se observa en la Figura 1, para Podemos es su primera palabra, la palabra estrella que más visualiza entre las cuentas de Twitter seleccionadas. De todas las veces que aparece la palabra “país” (6.902), en el 9,3% de los casos es de Podemos. También para el PSOE es la primera palabra aunque su peso respecto al total representa un porcentaje menor (3,4%). "Historia", con un total de 2.680 apariciones, es otra de las palabras que aparece entre las veinte más utilizadas por casi todos los partidos políticos PAE. En este caso, resalta especialmente el peso de Ciudadanos en ese total (representa el 55,6%), seguido a gran distancia del PSOE (20%) y PP (15,1%). "España" es otra de las palabras frecuentes de todas las analizadas (aparece en 2.563 ocasiones). Es la primera para el PP en el ranking de las más utilizadas aunque disputada con otras como “presidente”. Sabemos por los medios que líderes de IU no suelen incorporar en su discurso la palabra España, lo que también se confirma en nuestro análisis: sólo en el 1,5% de los casos "España" aparece en alguna cuenta de IU (38 veces). Cuando prácticamente todas las formaciones políticas reclamaban la revisión de la Constitución de cara a mejorar el acomodo territorial, era de esperar que también en Twitter fuese una palabra de las más utilizadas. Aparece 1.734 veces en total, especialmente en cuentas de los dos partidos políticos mayoritarios: 488 veces en el PP (representa el 28,1% de ese total) y 446 en el PSOE (25,7%). Le sigue C’s (334 veces; 19,3%) y UPyD (275 veces; 15,9%). En el caso de Podemos (143; 8,2%) y fundamentalmente IU (48; 2,8%) su uso es muy minoritario. Si atendemos a las particularidades de cada partido político, diríamos que Ciudadanos visualiza en Twitter sobre todo la palabra “democracia” seguida de “país”, “historia” y “España”. Es el único partido que menciona la palabra “negros” (1.175 veces; 4,7% de todas las utilizadas por su partido) y el que utiliza mucho más que el resto de 6 formaciones la palabra “dictadura” y “franco”. Es el único donde esas tres palabras aparecen entre las 10 más utilizadas por un partido político. Además, de todas las veces que aparece la palabra “himno” en todas las cuentas de los partidos políticos, en el 97,1% de los casos se trata de Ciudadanos. Si nos fijamos en el otro partido emergente, la estrategia de Podemos se dirige a resaltar sobre todo dos palabras, “país” (639 veces) y “pueblo” (526). Relacionado con el “pueblo” estaría palabras como “gente” y “contigo”, que también son importantes para Podemos dentro de sus cuentas de Twitter. Es el único partido de izquierda que incluye con cierta importancia palabras como “independencia” y “Cataluña”. Si nos fijamos en IU, su estrategia en Twitter parece dirigirse a resaltar la idea de “país”, “pueblo” e “izquierdas”. Son sus tres palabras más frecuentes por ese orden y en dos de ellas coincide con la formación política morada. Sin embargo, mientras que IU parece llamar la atención en sus tuits con la palabra “izquierdas”, Podemos no sigue esta estrategia, al menos no ni con la misma frecuencia que IU ni con la misma importancia. IU, además, es el único partido que entre las veinte palabras más frecuentes aparecen “nacionalizar”, “laico” y “patriotas”. Por ejemplo, de todas las palabras seleccionadas durante el periodo analizado, sólo en IU (104) y en el PSOE (140) aparece la palabra “laico”. La palabra “patriotas”, que aparece 171 veces, es utilizada por IU (62), seguido del PP (55) y Podemos (19). Para el PP, sus tres primeras palabras son, por este orden, “España”, “presidente” y “país”. Es el único partido político que utiliza con frecuencia palabras como “instrumentos” y “jurídicos”, posiblemente tratando de justificar casos de corrupción que ocurrieron durante la campaña electoral. Por ejemplo, en el 99,7% de los casos la palabra “jurídico” aparece en cuentas de Twitter del PP. Como en el caso de Podemos e IU, las referencias al "pueblo" también aparecen con frecuencia en el PP (es su novena palabra más utilizada). Como se observa, hoy la palabra pueblo se ha convertido en un término muy disputado a nivel discursivo por las distintas fuerzas políticas. De la caracterización del PP a través de Twitter también destaca el uso con cierta frecuencia de la palabra "nación" y "españoles". Respecto al total de apariciones, las del PP representan el 82,8% en el primer caso y el 67,7% en el segundo. La palabra "independencia" también la encontramos entre las veinte más utilizadas por el PP. Junto a Podemos y UPyD, son los tres únicos partidos que la palabra “independencia” aparece en el ranking de las veinte más utilizadas. 7 A diferencia del resto de formaciones políticas (excepto Podemos), PSOE se caracteriza por utilizar con bastante frecuencia la palabra "país". Respecto al total de apariciones en todas las cuentas de los partidos, representa el 23,2%. Es su principal palabra a bastante distancia del resto (aparece 1.009 veces). De hecho, a diferencia de Podemos, la segunda palabra más utilizada por el PSOE ("historia") aparece en mucha menor medida (537) que la palabra "país". Como decíamos, "constitución" es otra de las palabras recurrentes en los tuits del PSOE (446 veces; el 25,7% del total). Las referencias al "pueblo" (367 veces) también las encontramos en el PSOE. Algunas de sus particularidades es que es el único partido político que entre las veinte palabras más utilizadas aparece "acuerdo" (373 veces), agrupando además a casi la totalidad de apariciones (79,2%). La utilización de "líder" en sus cuentas Twitter también les diferencia del resto de formaciones (374 veces; representando el 91,2% del total). La palabra "religión" está prácticamente monopolizada por los socialistas (86,6%) y es, junto a IU (104 veces), el único que hace referencia a la palabra "laico" (140 veces). El PSOE es, junto a UPyD, el único partido que la palabra "Rajoy" aparece entre las veinte palabras más frecuentes. En el caso de UPyD, la siguiente figura ilustra muy bien como “Cataluña” (621 veces) e “independencia” (532 veces) son sus dos palabras más frecuentes, seguida de “Rajoy” (418). Dentro de las veinte más utilizadas, destaca la utilización de “financiar”, “constitución”, “autonomía” y “autogobierno”. Es el único partido que utiliza la palabra “golpistas” en sus tuits (146 veces). Figura 1. Las 20 palabras más frecuentes en Twitter de los partidos políticos de ámbito estatal y una nube de palabras con todas las palabras Cs esplendor trilero armas maximo empresas dice himno murio cuidemos valoremos representa franco dictadura negros espana hace historia pais democracia anos 0 500 1000 1500 2000 2500 3000 8 Podemos hacer favor cataluna bandera gracias poder cambio espanol ahora solo contigo gente espana historia cultura constitucion podemos independencia pueblo pais 0 200 100 300 400 500 600 700 IU patriotas bandera solo gobierno elecciones rajoy historia defendiendo concertada electricas eliminar laico progresivos nacionalizar impuestos educacion programa izquierdas pais pueblo 0 20 40 60 80 100 120 140 160 180 200 PP independencia democracia historia juntos espanoles constitucion nacion garantizo utilizara lograran alcance pueblo objetivos ninguno juridicos instrumentos mientras pais presidente espana 0 100 200 300 400 500 600 700 800 900 PSOE laico religion rajoy gobierno partido psoe cultura reforma espana pueblo pregunten puedo gusta acuerdo lider segun constitucion hijos historia pais 0 200 400 600 800 1000 1200 9 UPyD suspendido emana pais golpistas autogobierno autonomia espanola constitucion prensa personalmente pedire rueda anunciar acabo financiar manana deje rajoy independencia cataluna 0 100 200 300 400 500 600 700 Fuente: Elaboración propia. Si analizamos los resultados con cierta mirada comparativa atendiendo a las palabras más frecuentes dentro de cada partido, existen algunas tendencias significativas. Ciudadanos y PSOE parece coincidir en el uso de palabras para referirse a la cuestión nacional en España: coinciden en utilizar entre las más frecuentes la palabra “país” e “historia”. Podemos e IU son partidos políticos que también parecen tener cierta semejanza. Son los dos únicos que las palabras “país” y “pueblo” están entre sus dos primeras más utilizadas. A partir de la descripción anterior, nuestro objetivo es caracterizar a los partidos políticos a través del lenguaje. Nuestra intención es establecer algún tipo de análisis que nos permita confirmar esas tendencias y agrupaciones de partidos que parecen observarse con la descripción anterior. Para ello, intentaremos aplicar métodos que nos permitan extraer ciertas medidas sobre el uso del lenguaje, a nivel léxico, sintáctico y semántico, para la generación de vectores que sirvan como modelos de los distintos partidos políticos. Caracterización de los partidos mediante modelado de temas La identificación de temas (topic modeling) es una tarea por la cual se pretende extraer las "temáticas" sobre las que versa un conjunto determinado de documentos (Wallach, 2016), es decir, determinar las dimensiones o asuntos latentes tratados en un conjunto de documentos. Por ejemplo, en una colección de documentos médicos, este tipo de técnicas podrían identificar que existen un número de dimensiones principales sobre los que versan los documentos, como pueden ser aquellos referidos a tratamientos, otros a enfermedades, otros a pruebas de fármacos, etc. El resultado de aplicar estos algoritmos a un conjunto de documentos es una serie de dimensiones representadas como agrupaciones de palabras que tienen un peso asociado a cada dimensión y, a su vez, un peso de cada dimensión en cada documento. Las técnicas usadas son variadas, pero todas se basan en cálculos sobre las distribuciones de probabilidad de palabras, 10 secuencias de palabras y conjuntos de documentos, es decir, en un análisis estadístico de las frecuencias de palabras y cómo se agrupan éstas. De esta forma, dos palabras que aparecen juntas con frecuencia probablemente hacen referencia a la misma dimensión. Uno de los algoritmos más usados es LDA (Latent Dirichlet Allocation) (Blei, 2003), que considera que cada documento es la mezcla de un número reducido de dimensiones y que la inclusión de cada palabra está relacionada con una de las dimensiones tratadas en el documento. Esto resulta muy útil para analizar grupos de personas a partir de los textos que generan, como es el caso de nuestro estudio, pues no sólo podemos representar a cada grupo como un vector de dimensiones (con pesos asociados), sino que podemos visualizar las palabras más significativas de cada dimensión, lo cual nos puede dar una idea de las temáticas que son de interés en cada grupo. En nuestro caso, tenemos tantos “documentos” como partidos, construyendo estos documentos con todos los tweets capturados y asociados a cuentas relacionadas con cada partido. Al aplicar LDA e indicar que extraiga las 10 dimensiones más dominantes en la colección de documentos obtenemos, por un lado, los términos asociados a cada uno de esos temas “latentes” y, por otro lado, el peso que tiene cada dimensión en cada documento. Dado que para nosotros cada documento representa a un partido, en cierta forma estamos caracterizando las temáticas tratadas por los partidos a través de la red social Twitter y, al mismo tiempo, caracterizando a los partidos en base a estas temáticas. El resultado de este proceso queda reflejado en la Tabla 1. Tabla 1. Dimensiones (D) y partidos asociados D 1 2 3 4 5 6 7 8 9 10 Términos pueblo ahora cataluna soberania pues gente nunca nacion mayor voto politico dinero catalunya cosas elecciones corrupcion historia independencia espana mejor independentista espanol hablar mismo referéndum parte gran alguien lengua catalanes hoy hombre proceso historia bandera cataluna patria pais frente partidos usted golpe viva catalana leyes parece pagar verguenza mayoria mismo patriotas declaracion presidente espana ninguno instrumentos juridicos objetivos alcance utilizara lograran garantizo nacion juntos democracia espanoles europea preservaremos avanzada fractura logrado cataluna independencia rajoy acabo manana deje prensa rueda financiar personalmente anunciar constitucion autogobierno autonomia golpistas emana suspendido espanola votar pais constitucion cultura partido politica siempre espanola queremos anos personas psoe menos gobierno quieren espanoles quiero ley votar hijos lider gusta historia segun acuerdo pregunten tdt espana reforma religion laico bienestar vida constitucional psoe pais contigo gente independencia cultura gracias cambio favor proteger dia menor abrazos grupos democracia disfrute participe ministro izquierdas programa eliminar impuestos defendiendo laico educacion electricas concertada progresivos nacionalizar rajoy elecciones gobierno patriotas pueblo gane empenado cerrazon anos democracia negros dictadura franco representa cuidemos valoremos murio himno pais empresas armas saudi trilero vendera arabia esplendor maximo historia 11 Partido(s) Podemos C’s e IU PP PP UPyD PSOE y Podemos PSOE Podemos IU C’s Estas diez dimensiones reflejan más del 95% de variabilidad en los documentos procesados o, lo que es lo mismo, mediante dichas dimensiones se cubre casi la totalidad de los contenidos generados por los partidos. En la Tabla 1, las diez dimensiones están ordenadas en base a su presencia en los textos recopilados. Debemos aclarar que el análisis realizado con LDA nos propone dimensiones que van desde la más representada (aquella que cubre la mayor variabilidad) hasta la menos representada, por lo que es posible extraer un número mayor de dimensiones. La tercera columna indica el partido o partidos que más claramente están relacionados con esa dimensión. En negrita, el partido que tiene a dicha dimensión como su dimensión más característica. A partir de los términos que representan cada una de las dimensiones, podemos identificar alguna semántica razonable. Como se observa, de los tweets recopilados sobre la cuestión nacional, la primera dimensión menciona expresamente a Cataluña, cuestión que es principalmente planteada a través de Twitter en las cuentas asociadas a Podemos. La dimensión 4, por ejemplo, es la que está más fuertemente asociada a PP. El tipo de discurso parece orientarse a la necesidad de “preservar” y “garantizar” la unidad de España y el Estado evitando la “fractura” territorial. Tanto PSOE como IU usan términos referidos a la educación y el laicismo. Ciudadanos (más) y el PP parecen tener un discurso más orientado al sentimiento español, con términos como “España”, “himno”, “país”, “esplendor”, “historia”, etc. Y, de todos ellos, parece que IU es el que indica aspectos más concretos como “impuestos”, “eléctricas”, “educación concertada”, etc. Podemos también parece querer insistir en la idea de patria y populismo y de construcción nacional-popular (“país”, “contigo”, “gente”, “abrazos”) (véase la dimensión 8 de la Tabla 1). Como cada partido puede asociarse a una dimensión con un peso, podemos representar gráficamente el “ADN” del discurso de cada partido (Gráfico 1). El eje horizontal indica, en una escala de 0 a 1, el peso de cada dimensión en los mensajes de Twitter de cada partido. La suma de todos los pesos debe ser 1, indicando así que esas dimensiones, en esas proporciones, cubren la totalidad de los mensajes del partido. 12 Gráfico 1. Caracterización de partidos Como puede observarse, UPyD está fuertemente representado en la dimensión 5, que no está tan relacionado con el resto de formaciones, por lo que su discurso parece ser el más diferenciado. Una dimensión donde coinciden Podemos, PSOE e IU es la 6, donde parece desprenderse la cuestión del deseo de voto. El resto de partidos la incluyen pero con menor peso. Excepto Podemos y PSOE, el resto de partidos analizados (Ciudadanos, IU, UPyD y PP) tienen más del 50% de su discurso concentrado en una dimensión concreta. Por el contrario, la mayor variabilidad (o heterogeneidad de mensajes) aparece en Podemos. También observamos la gran similitud entre PSOE e IU en los pesos de las 5 primeras dimensiones. En suma, aunque la identificación de las palabras y de las dimensiones presentadas no deja de ser el resultado de un cálculo puramente estadístico, sí existen algunos patrones que nos ayudan a entender mejor las estrategias de los partidos políticos a través de la red social Twitter. En estos momentos, estamos trabajando con análisis de este tipo de cara a las siguientes elecciones generales del 26 de junio de 2016. REFERENCIAS BIBLIOGRÁFICAS Anderson, B. (1991). Comunidades imaginadas. Reflexiones sobre el origen y la difusión del nacionalismo. México: Fondo de Cultura Económica. Bastida, X. (2002). Otra vuelta de tuerca: el patriotismo constitucional español y sus miserias. Cuadernos de Filosofía del Derecho, 25: 213-246. Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). Latent dirichlet allocation. the Journal of 13 Machine Learning Research, 3, 993-1022. Bosworth, A.G., Cox, C., Sanghvi, R., Ramakrishnan, T.S. y D’angelo, A. (2010). Generating a feed of stories personalized for members of a social network, Noviembre 2. US Patent 7,827,208. De Blas, A. (2003). Veinticinco años de Constitución y Nacionalismo. Revista de Derecho Político, 58-59: 765-775. Easton, D. (1965). A system analysis of political life. New York: Wiley. Ferri, E. y A.M. Ruiz. (2015). Entre patria y estado: formas de nombrar España. Un recorrido por los discursos programáticos de PSOE y AP-PP entre 1977 y 2011. Empiria. Revista de metodología de ciencias sociales, 32: 63-84. González de la Fé, T. (2014). Sociología y big data. Encrucijadas. Revista crítica de ciencias sociales, 8: 51–53. Gutiérrez-Rubí, V. (2016). El silencio en política (en línea) http://www.gutierrez-rubi.es/2016/03/29/el-silencio-en-politica, acceso 29 Marzo de 2016. Guy, I., Zwerdling, N., Ronen, I., Carmel, D., Uziel, E. (2010). Social media recommendation based on people and tags. En Proceedings of the 33rd international ACM SIGIR conference on Research and development in information retrieval, 194-201. Juliana, E. (2015). Patria (en línea) http://www.lavanguardia.com/politica/20150201/54425706950/patria-enric-juliana.html, acceso 21 de Febrero de 2016. Martínez, E., Martín, M., Urena, L., Montejo, A. (2014). Sentiment analysis in twitter. Natural Language Engineering, 20(01): 1–28. Mateo, M. (2005). La idea de España a finales del S.XX: El nacionalismo español desde la transición (en línea) http://www.vientosur.info/documentos/cuestionnacional-montsemateo.pdf, acceso 2 de Abril de 2015. Muñoz, J. (2012). La construcción política de la identidad española: ¿del nacionalcatolicismo al patriotismo democrático? Madrid: Centro de Investigaciones Sociológicas. Navarro, L. (2016). La nación evitada. Identidad nacional en España y discursos de élites de izquierda. Tesis doctoral, Departamento de Sociología, Universidad Pablo de Olavide, Sevilla. Troyano, J., Ureña, L., Maña, M., Cruz, F., Enríquez de Salamanca, F. (2015). Aorescu: 14 análisis de opinión en redes sociales y contenidos generados por usuarios. Vilares, D. (2016). A review on political analysis and social media. Procesamiento del Lenguaje Natural, 56: 13–24. Wallach, H. M. (2006, June). Topic modeling: beyond bag-of-words. In Proceedings of the 23rd international conference on Machine learning (pp. 977-984). ACM. Zhang, A. X. y Counts, S. (2015). Modeling ideology and predicting policy change with social media: Case of same-sex marriage. En CHI, 2603–2612. 15