TRATAMENTO DE DATOS NA COMUNICACIÓN TEMA 1: Os datos hoxe Definindo o que son os datos Unha pequena vista ao dicionario (NON ENTRA NO EXAME) Dato 1. Elemento que serve de base para o exacto coñecemento dunha cousa. 2. Elemento de información que se pode tratar mediante un sistema informático (definición mellor adaptada). Todo o que dixemos podemos resumilo na seguinte idea: "Todo pode ser rexistrado, contado e medido”- Giorgia Lupi e Stefanie Posavec (2016). Dear data. New York: Princeton Architectural Press. Mapas temáticos Exemplos: - Cadro cronolóxico para situar autores no seu contexto Situar brotes de enfermidades e detectar os casos e a súa localización (Exemplo do Mapa do brote de cólera no barrio Soho, John Snow) Florence Nightgale (rexistro das causas de mortalidade do exército británico) Gráfica da campaña rusa de Napoleón coa información das baixas do exército nos desprazamentos entre Moscú e Francia, relacionando coas temperaturas que eran a primeira causa de morte. Comezo do procesamento de datos (finais do s.XIX) O escritorio de Hollerith • • • • • Contexto: elaboración do censo de Estados Unidos no 1980. Problema: maior poboación e máis problemas debido ao aumento de datos. Solución: emprego das tarxetas perforadas (Joseph Jacquard,1801). Os datos representábanse como furados nas tarxetas e estas metíanse na máquina, que buscaba os ocos dentro dun circuíto e movía sumaba unha unidade ao reconto a través dun dia. Beneficios: redución do tempo necesario para completar este censo, xa que se podían recoller e analizar grandes cantidades de datos. Grazas ás máquinas púidose facer nun ano o que antes levaba oito. Fundador dunha empresa que acabou sendo parte de International Business Machine (IBM) Tarxetas perforadas de Hollerith O reto da almacenaxe (s.XX) • • O problema do rexistro e o procesamento queda resolto (cando menos de xeito inicial) coa introdución de sistemas como o escritorio de Hollerith. Novo reto: a súa almacenaxe. 1 Evolución da almacenaxe (s. XX) Rexistro magnético - VHS (1976). Betcam (Sony,1982). Cintas DV – Digital Video (1996). Disco duro magnético (IBM,1956). Disquete (1971). Rexistro óptico (electrónico-láser) - CD-ROM- Compact Disc Read-Only Memory (1985), DVD – Digitale Versatile Disc (1996). CD-RW – Compact Disc – ReWritable (1997). A idea da nube (década de 1960) Joseph Carl Robnett Licklider: - ARPANET: Rede de ordenadores intercomunicados A.R.P.A. - Advanced Research Projects Agency. Idea dunha “rede intergaláctica de ordenadores” na que se puidera acceder aos datos e programas en calquera momento, por calquera persoa e en calquera lugar. Cara as bases de datos relacionais (década dos 70) Proposta de Edgar Frank Codd: - Datos organizados en filas (representan unha entrada) e columnas (categorizan a información) As relacións entre estes datos denomínanse esquema. A chegada de Internet (década de 1990) - Ligazóns e hipertexto: posibilidade de compartir os datos con todo o mundo. Desenvolvemento de espazos de almacenaxe web. Comezo do fenómeno Big Data. 1997: Google. Intelixencia artificial e Machine Learning • • • Elementos fundamentais no desenvolvemento do rexistro e o tratamento de datos na actualidade Intelixencia artificial: combinación de algoritmos para a programación de máquinas con capacidade semellantes ás do ser humano. Machine Learning: capacidade das máquinas para recoñecer e desenvolver patróns de xeito continuado, realizando predicións baseadas en datos. Logo diso tamén realizan axustes sen ter sido programadas especificamente para iso (capacidade de aprendizaxe da súa propia experiencia). 2 O ciclo dos datos Posibles fases ou momentos na “vida” dos datos: 1. 2. 3. 4. 5. 6. Captura. Mantemento. Utilización. Publicación. Arquivo. Eliminación. Fase 1: Captura • • • • • - Fase tamén denominada “inxestión” (comernos os datos). Recompilación de datos de fontes diversas: creación de novos datos e adquisición de datos de fontes externas. Chegada dos datos á organización a través do uso de diferentes ferramentas e/ou métodos: Manuais. Asistido (software, automatización). Dous xeitos de facer este rexistro: En tempo real (conforme se crean). Por lotes (inxestión cada certos períodos de tempo). Almacenaxe en bases de datos. Estes datos poden ser: Xerados polos usuarios e rexistrados polas propias organizacións (Ex. Tipos de solicitudes que se presentan ante a Xunta) Froito da investigación (Ex. Creación dun inventario dos materiais dunha organización xunto coas súas características). Fase vital do proceso: os erros nesta fase arrástranse nas posteriores e dificultan a tarefa de limpeza e arquivo. Resumo: a captura ou inxestión de datos é a acción de tomar os datos e facelos accesibles para o seu uso. Fase 2: mantemento • • • Procesamento dos datos sen obter aínda ningún beneficio ou coñecemento. Distinta procedencia, distintos formatos. Facemos homoxénea a presentación dos datos convertindoos nun formato comprensible e coherente dentro de todo o conxunto. Interveñen de novo os software automatizados. Fase 3: Uso • • • - Usamos os datos para xerar ideas, beneficios ou resultados. Fase crucial do ciclo de vida dos datos: ten pouco sentido rexistralos e traballalos se non se van usar. Diferentes tarefas e aplicacións en función do tipo de datos e da actividade: Para informar. Para mellorar procesos. Para identificar debilidades. Para comprender o estado dunha organización, proxecto, realidade, etc. 3 Fase 4: Publicación • • Fase condicional, non sucede sempre. Pode ser ao público xeral ou a determinadas persoas/organizacións externas. Exemplo: cesión dos datos a unha entidade para a elaboración dun informe. Fase 5: Arquivo • • • • Os datos atoparíanse nesta fase cando non é posible identificar que se atopen nalgunha das outras sinaladas ata o momento (captura, mantemento, utilización e publicación). Os datos están xa rexistrados e non se atopan nin en fase de enriquecemento nin de uso. Finalidade desta fase: almacenaxe por se volvesen a ser necesarios. Elemento de importancia: manter seguros estes datos arquivados. Fase 6: Eliminación • • • • • Fase final do ciclo da vida dos datos. Eliminación de todas as copias xeradas. Motivo: final da vida útil. En ocasións sáltase a fase de arquivo e pásase directamente á eliminación. Moitas veces esta acción está vinculada a medidas de protección de datos. As bases de datos Algunhas definicións • • Gran conxunto de información almacenada nun sistema informático dunha forma facilmente observados, traballador e modificados- Cambridge Dictionary. Combinación de datos ou información organizada para unha busca rápida por un ordenador Britannica. Elementos a ter en conta cando falamos dunha base de datos - Conxunto de datos Intervención de sistemas informáticos Capacidade ou favorecemento de certas accións (busca, modificación, etc.) Unha base de datos é un conxunto de datos que xeralmente describen as actividades dunha ou mais organizacións - Raghu Ramakrishnan e Johanes Gehrke (2000, p.63) Por exemplo, a base de datos dunha universidade poderá conter información sobre o seguinte: - Entidades como os estudantes, as facultades ou as aulas. Relacións entre os estudantes matriculados nos cursos, os cursos que se ensinan nas facultades e o uso das aulas para os cursos. Unha base de datos é un repositorio estruturado para os datos. O seu propósito xeral é conservar os datos para algúns dos obxectivos da organización. - Paul Beyon-Davies (2003, p.33). 4 Contexto - Maior cantidade de datos (información dispoñible) Maior valor dos datos Cobra importancia: - Capacidade para a xestión de datos Ter localizada esa información Propiedades dunha base de datos - Capacidade para que os datos sexan compartidos Integración dos datos Integridade dos datos Seguridade dos datos Abstracción dos datos Independencia dos datos Paul Beyon-Davies (2003, p.33). Nota: Estas propiedades non teñen por que estar todas presentes. Capacidade para que os datos sexan compartidos • • • Data sharing Polo xeral, os datos almacenados nunha base de datos (entendida como instrumento promovido dende unha organización) non son exclusivos para o acceso por parte dunha soa persoa. Agárdase que sexan varias as persoas que accedan a unha base de datos. Ex. Unha base de datos dunha universidade non é de acceso exclusivo para o persoal docente, senón que tamén accede p persoal da Administración e Servizos. Integración dos datos • • • • Data integration Ao outorgar acceso a múltiples persoas debemos garantir a integración dos datos. O escenario ideal é aquel no que non existen datos redundantes (duplicados). Un dato redundante aparece cando un atributo ten dous ou máis valores idénticos. Un dato é redundante se se pode eliminar sen que se perda información. Ex. Fichas de estudantes. Non ten sentido pedilas porque esa información está incluída na secretaría virtual. Integridade dos datos • • • Data integrity Unha base de datos debe de amosar de forma fidedigna o universo para o cal é modelo. A a relación entre o que se representa (no mundo real) e o que recolle a base de datos é plena. Se acontecen cambios no mundo real deben quedar rexistrados na base de datos Ex. Base de datos do alumnado matriculado nun curso. Se unha persoa cambia o seu nome a base de datos debe recoller o cambio. 5 Seguridade dos datos • • • • Data Security Limitar o acceso aos datos e ou á súa edición (unicamente persoas autorizadas). Tamén hai bases de datos nas que se abre o acceso (bases de datos públicas) pero non a edición. Ex. Os Institutos Nacionais de Estatística son un exemplo do último caso. Todo o mundo pode acceder á información, pero non rexistrala ou editala. Abstracción dos datos • • • • Data abstraction. Unha base de datos pode ser vista como un modelo da realidade. A información almacenada na base de datos é un intento por representar as propiedades determinadas obxectos ou situacións reais Ningunha base de datos pode rexistrar absolutamente todas as características da realidade, é só unha abstracción da mesma Ex. Unha base de datos de estudantes ten información académica e de contacto, pero non a de pelo, altura, etc. Independencia dos datos • • • Data independence. Os cambios nos datos non poden afectar ás aplicacións e procesos que usan e viceversa Ex. Se cambiamos o proceso de rexistro (de cubrir un formular a man a facelo online) isto non debería alterar a información que aparece na nosa base de datos. RESUMO: - Datos: realidade Proceso: técnicas e sistemas Independencia entre ambos Datificación Idea da “datificación” • • • • • • - “Converter algo en datos”- (Ulises A. Meijas e Nick Couldry, 2019). Proceso que mide e rexistra cada vez máis ámbitos ou parcelas da nosa vida diaria Os rexistros (datos) dan lugar a bases de datos de utilidade para diferentes tipos de organizacións e/ou para o uso global da cidadanía. A crecente presenza de datos na sociedade xera maior confianza e dependencia das organizacións - (Mark Lycett, 2013). De forma paralela, democratízanse os procesos de rexistro e uso dos datos, así como a idea de que se pode xerar/extraer valor a partir deles- (Mark Lycett, 2013). Os medios de comunicación son parte da datificación, fundamentalmente en dúas vías: Aplicación do Big Data para a investigación dos patróns de comportamento da audiencia Big Data como parte dos formatos xornalísticos. Desenvolvemento de narrativas xornalísticas baseadas nos datos 6 (Amelia H. Arsenault, 2017) A ciencia de datos Que é a ciencia de datos? • O termo “ciencia de datos” é un enfoque que inclúe os datos e a estatística ou estudo sistemático da organización, as propiedades e a análise dos datos e o seu papel na inferencia (detección das causas). Vasant Dhar (2013). Que hai dentro da ciencia de datos? - Estatística Informática Programación Comunicación Socioloxía Xestión dos datos Pensamento Longbing Cao (2017). A ciencia de datos Empréganse os termos Data Scienci (Ciencia de Datos), Machine Learning (Aprendizaxe Automática) e Data Mining (Minaría de Datos) de forma indistinta, pero: • • • O Machine Learning céntrase no deseño e avaliación dos algoritmos para extraer patróns. A Minaría de Datos focalízase no estudo dos datos estruturados, adoita ter aplicacións comerciais. A “Ciencia de Datos” ten en conta eses enfoques, pero céntrase noutros retos como a captura, limpeza e transformación de datos desestructurados, o uso de tecnoloxías de Big Data para almacenar grandes conxuntos desestruturados de datos e tamén en cuestións de ética e regulación no traballo cos datos. John D. Kelleher e Brendam Rierney (2018). Data Science. Londres: The MIT Press (pp.1-2) Características dos datos Datos vs información • • Datos: representación de feitos, conceptos ou instrucións de xeito formalizado para que poidan ser procesados. Información: datos organizados e clasificados de forma que conteñan algún elemento de valor para quen a recibe. 7 Dimensións ou características dos datos - Singularidade Precisión Coherencia Completude/Exhaustividade/Integridade Actualidade/Velocidade para o aceso Vixencia Singularidade (Uniqueness) • • • As entidades son únicas (ou deben selo) Evitar duplicidades/redundancias, non deben existir máis dunha vez dentro dunha base de datos Non se debe crear un rexistro para unha entidade que xa conta cun rexistro previo Precisión (Accuracy) • • • • Grao no que os datos representan de xeito fidedigno os obxectos ou realidades da “vida real” sobre os que tratan. Identifícase coa capacidade dos valores rexistrados para ser datos de referencia sobre unha realidade. Os datos poden ser rexistrados de diferentes formas e pódense estar rexistrando datos dende diferentes organizacións ou persoas. A precisión determina que os datos que contan con esta característica son os que amosan de xeito máis claro a realidade que abordan. Consistenia (Consistency) • • • • Non confundir con “exactitude” ou “precisión” Na característica de consistencia, dous valores de datos extraídos de conxuntos de datos distintos non deben entrar en conflito entre si Os valores presentes nun conxunto de datos deben ser consistentes cos mesmos valores cando forman parte doutro Ex. Os nomes que están na lista de alumnado das sesións expositivas deben coincidir co resultado do alumnado dos 3 grupos de seminario. Completude/Integridade (Completeness) • • - Existencia de valores non nulos asignados a elementos de datos específicos. Caracterízanse dun destes 3 xeitos: Asignación obrigatoria de valores: o elemento que conforma o dato debe de ter un valor. Opcionalidade do valor: o elemento que conforma o dato pode ter un valor (ou non) baixo unhas condicións específicas. Valores que non aplican: o valor non garda relación co dato. Ex. Talla de cintura nun rexistro de calzado Actualidade (Timeliness) • Tempo no que se agarda que a información estea dispoñible e accesible dende que ten lugar 8 Actualización/Vixencia (Currency) • • Grao no que a información está actualizada Mídese en función da frecuencia na que se agarda que se actualicen os datos principais, así como os procesos de verificación O Big Data Big = Grande e Data=Datos Traducido en galego como “Macrodatos” Nota: Son grandísimos volumes de datos que sistematizamos e están en circulación. Que é o Big Data? • O Big data son activos de información con alto volume, alta velocidade e ou alta variedade que esixen formas rendibles e innovadoras de procesamento da información que permiten mellorar a visión, toma de decisións e automatización dos procesos. (Visión empresarial e de procesos) Gartner (consultora de innovación tecnolóxica): Glosario de termos relacionados coas Tecnoloxías da Información. • • • • Información que non pode ser procesada ou analizada mediante procesos tradicionais. Cantidades masivas de datos que se acumulan co tempo e que son difíciles de analizar e manexar empregando ferramentas comúns de xestión de bases de datos. Tratamento e análise de grandes repositorios de datos, tan grandes que resulta imposible tratalos con ferramentas convencionais (Enrique Dans, 2011) “Boom” dende comezos da década de 2010 (Amir Gandomi e Murtaza Haider, 2015). Antes diso mencionábase en conferencias especializadas nos eidos da informática, pero só como unha idea. As V’s do Big Data? Inicialmente falase de 3 V: - Volume: crecente cantidade de datos. Variedade: complexidade de tipos e fontes de datos. Velocidade: no relativo á súa creación e dispoñibilidade. Esta velocidade tradúcese tamén en maior velocidade no relativo ao desenvolvemento dos produtos de software empregados para tratalos. Exemplo Twitter: • • • Volume: as persoas que forman parte da rede xeran un alto volume de contidos (chíos) Variedade: Temática: diferentes temas para os chíos Tipoloxía: só texto, con imaxe, con vídeo, con iconas, etc. Interaccións coa plataforma: Rt, Favs, resposta, visualización de determinados contidos, etc. Velocidade: milleiros de chíos por minuto. 9 Como de grande é o Big Data? • • • O termo Big Data non leva só a idea dos datos masivos en termos de cantidade. Arredor do Big Data aparece toda unha serie de necesidades, saberes, coñecementos e disciplinas. Inclúense dentro del o Open Data, a Visualización de datos, a Minaría de datos, Ciencia de datos, etc. Todo isto entra a formar parte dun contexto no que o Big Data ten cada vez máis presenza e forza. (Jean-Louis Monino e Soraya Sedkaoui, 2016, p. XXXIV) TEMA 2: DATOS E XORNALISMO Unha pequena visita ao dicionario Dato: 1. Elemento que serve de base para o exacto coñecemento dunha cousa 2. Elemento de información que se pode tratar mediante un sistema informático. Dicionario da Real Academia Galega. 3. Información dispuesta de manera adecuada para su tratamiento por una computadora (esta). Dicionario de la Real Academia Española. Os datos como fonte xornalística • • Crecemento dos datos = crecemento do seu potencial uso no ámbito do xornalismo. Datos = oportunidade. (Moitas veces temos dúbidas sobre como abordar un tema e o que facemos é cruzar diferentes datos, por iso máis datos danos máis oportunidades). Contexto • • • • Perda de credibilidade nas institucións. Perda de credibilidade nos medios de comunicación. Crecemento doutros actores no escenario mediático (redes sociais, influencers, etc.). Novas voces (algunhas formadas/informadas, outras non). Aquí é onde o noso traballo aparece unha oportunidade Alternativas • • • • • • Aproveitamento dese crecente rexistro e dispoñibilidade dos datos Crecemento de iniciativas Open Data Mellora das ferramentas para o traballo de datos Crecente interese do público en proxectos de datos: Recoñecementos Premios Investimento en ferramentas e equipos para o traballo cos datos Novas narrativas deseñadas para comunicar os datos Nota: os datos son mostras dunha realidade que existe. 10 Particularidades sobre o xornalismo de datos Datos e xornalismo: novidoso, non novo É tendencia, mais non é algo plenamente novo • • • O xornalismo de datos é tan antigo como a propia existencia dos datos Antes os datos estaban publicados en libros e informes, a maior parte deles inaccesibles Sempre se fixo xornalismo con datos só que agora eses datos son máis e temos mellores ferramentas para tratalos “Xornalismo aberto” Democratización do aceso aos datos: - Dispoñibilidade (Open Data) Nas ferramentas para tratalos Neste contexto: - Aparición de seleccións en medios. Medios que traballan moito cos datos abertos (ProPublica) Nacen iniciativas cívicas (ONGs, organizacións de persoas, etc.) para buscar nos datos abertos patróns, historias, facer denuncia, etc. Curación/conservación de contidos • • - Nese alto volume de datos hai un alto volume de historias. Misión dos xornalistas: Diferenciar elementos clave Entender a súa utilidade para a sociedade Identificar outras fontes de utilidade para comprender esa realidade Identificar o xeito máis eficaz de trasladar esa información Preservar eses datos a través das historias que contamos ao empregalos Facer accesible o inabarcable (misión do xornalismo de datos) • A función do xornalismo de datos é a de dotarse das ferramentas e procesos necesarios para poder “navegar” mellor entre ese mar de datos “80% suor, 10% gran idea, 10%resultado” Prazos/tempos de traballo • • • • Máis longos que no xornalismo habitual para afondar nos conxuntos de datos Tamén hai espazo para facer xornalismo de datos máis áxil, máis sinxelo A tecnoloxía ten un papel crucial axilizando o proceso Conxuntos de datos máis pequenos/con menor complexidade Resumo: Dúas maneiras de traballar: - tempos longos para afondar e recadar información tempos curtos onde prima a rapidez 11 Accesible a calquera? • • - Pódese dicir que a día de hoxe case que si. Aparición de múltiples ferramentas que facilitan o traballo cos datos nas súas diferentes fases: Procura: gran cantidade de portais de datos de todo tipo e mesmo espazos nos que se poden mercar conxuntos de datos. Xestión: Microsoft Excel, Google Sheets, etc. Visualización: Datawrapper, Flourish, Tableau, etc. Difusión: redes sociais e publicación na web. Escenario de competición • • Centos de actores pelexando por un espazo no escenario mediático. Necesidade de ofrecer elementos atractivos e que funcionen ben a nivel xornalístico. A ter en conta: - Alto volume de información fai necesaria a aposta por determinadas narrativas Necesidade de formular os proxectos de xornalismo de datos (bosquexos para entender o rol de cada unha das súas partes, as decisións de deseño/presentación, etc. En ocasións: creación de códigos/narrativas especiais. Imposibilidade de agrupar todas as habilidades, saberes e coñecementos nunha única persoa. Perfil do xornalista • • ▫ ▫ ▫ ▫ ▫ Non é necesario ser programador Traballo en equipo: Programación Visualización Deseño Estatística Xornalismo Non perder o foco: • • Non se trata de presentarlle á audiencia un feixe de números, cifras e gráficos, senón de atopar, identificar e comprender a utilidade duns datos. Claves que nunca deben desaparecer no noso traballo: Identificación- seleccióncomunicación A historia do xornalismo de datos Definindo o xornalismo de datos Xornalismo de datos Uso de datos no xornalismo para descubrir e explicar mellor ou para dar o contexto dunha historia Nota: é importante esta dualidade de contar unha historia e enriquecer e dar contexto. 12 Orixes • • • • Xornalismo de precisión de Philip Meyer Fai referencia a un xornalismo que pode ser máis preciso e fiel á realidade a través do uso dos datos (números) e ordenadores. Inicialmente pouco éxito nas técnicas de rexistro e uso da información de xeito tan sistemático Altos custes (persoal e tempo de traballo). Formas de referirnos a este xornalismo: • • • Xornalismo de precisión Xornalismo asistido por computadora Xornalismo de investigación Século XXI • - Seguen aparecendo organizacións como a Global Investigative Hournalism Network (2003) Xornalismo de investigación pero tamén de datos. Expansión: deixa de ser algo propio dos Estados Unidos e comeza a propagarse por todo o mundo Nota: case todo comeza en EEUU e remata chegando aquí. • • • • “Boom” con traballos como chicagocrime.org (Adrian Holovaty,2005): combinación dos datos existentes nos rexistros públicos coa tecnoloxía e as ferramentas dispoñibles e producidas polas grandes compañías. Comezo do movemento Open Data: extensión de ideas como a transparencia e a rendición de contas, e a posibilidade de axudar ao fortalecemento destas ideas a través do uso xornalístico dos datos abertos. Xornalismo estruturado: fórmula narrativa. É un pouco diferente ao de datos. Sérvenos por exemplo para temas que se van desenvolvendo ao longo do tempo. A gran particularidade á hora de encadrar algo nun termo ou outro sería ver se se trata dun traballo no que se abordan todos os datos dunha volta (Xornalismo de datos) ou se se organizan e categorizan para a súa exposición secuenciada (Xornalismo estruturado). Resumo: • • Xornalismo de datos: todos os datos dunha vez Xornalismo Estruturado: unha información ten moitas fases e ímola soltando pouco a pouco de maneira estruturada. Exposición, presentación de conxuntos de datos De forma conxunta Xornalismo de datos Si Xornalismo estruturado Si Si Non Século XXI • • Mellora tecnolóxica das ferramentas para a xestión e traballo cos datos. Expansión da visualización da información: 13 - Aposta por este xénero nos grandes medios Utilidade como ferramenta para o xornalismo Impacto positivo nas audiencias Impacto (positivo) da pandemia Xornalismo de datos. RESUMO Varios nomes referidos a unha mesma materia para o xornalismo: os datos. - Xornalismo de precisión Asistido por computadora Xornalismo Investigación Xornalismo Estruturado Xornalismo de datos. A pirámide invertida do xornalismo de datos (posible pregunta) Fases: 1. 2. 3. 4. 5. Recompilar Limpar Contextualizar Combinar Comunicar 1. • • Recompilar Dúas posibles orixes: Unha cuestión ou problema precisa datos. Saber que hai detras dos datos Independentemente da orixe, o que chega a continuación é un proceso de xornalismo de datos. Parte máis importante do proceso. Un erro aquí arrástrase nas fases seguintes. • 14 Onde se recompilan estes datos? 1. De forma directa (comunicados de prensa, envío das partes interesadas) 2. Mediante bases de datos ou fontes institucionais 3. Executando o baleirado de bases de datos ou páxinas web a través de ferramentas como o web scraping. 4. Transformando documentos (de texto) a elementos que poidan ser analizado 5. Extraendo os datos das API (Application Programming Interface) doutros servizos 6. De xeito manual: observación, enquisas, formularios en liña, etc. 2. Limpar Conversión/adaptación dos datos a unha forma de presentación que sexa consistente con outros datos que se poidan estar empregando. Que facemos nesta fase? - Eliminación de duplicados Axuste de nomes identificacións (A Coruña ou La Coruña) Unificación de unidades (euro - dolar) Entradas baleiras e erradas Homoxeinización e escolla do formato Mistura de datos nunha mesma columna (idade e estatura na mesma celda) Datos fóra do sitio que lles corresponde (idade na columna de estatura). 3. Contextualizar • Dicirlle á xente o marco onde se encadran todos estes datos. Preguntas que nos facemos nesta fase: • • • Quen recolleu os datos (procedencia) Cando (data) Motivo (finalidade) Cal é o seu significado Permite afondar na temática, comprender as categorías que a configuran e os termos que lle son propios. Axuda a compilar outros datos que poidan gardar relación con ese contexto que ofrecemos. Fase útil para ser orixinais no enfoque e ofrecer algo diferente. 4. Combinar • • 1 conxunto de datos = 1 historia? Posible. 1 historia = varos conxuntos de datos? Mellor. 5. Comunicar • De xeito individual ou combinando unha ou máis opcións: visualización, narración, comunicación nas redes sociais, humanización, personalización, utilización. 5.1 Visualización 15 - • • Xeito máis sinxelo de comunicar os resultados/produtos do xornalismo de datos. Expansión de ferramentas gratuítas e de uso sinxelo (accesibles a calquera persoa). Sinxeleza non é igual a efectividade. O crucial ao facer a visualización da información é non caer na espectacularización (debemos fortalecer a idea de que se entendan os nosos datos, non todo é que quede bonito). Necesidade de facer materiais atractivos, si, pero que deixen claras as tendencias que existen nos datos. Proceso complexo que deriva dos anteriores e que axuda a reforzalos: Facer unha boa recompilación. Facer unha boa limpeza. Entender como a visualización pode axudar á contextualización (precisando determinados datos, aplicando outros, simplificando a complexidade). Espazo para a combinación (nunha visualización pódense integrar datos de diferentes conxuntos e presentalos de formas diferentes). Unha máxima: menos e máis. É mellor optar polo simple para favorecer comprensión. 5.2 Narración • • • • • • • • Tamén se pode facer xornalismo de datos en materias máis tradicionais: Artigos. Pezas para tv ou radio. O texto ou a narración é tamén unha ferramenta para facer que os datos (e as historias que hai detrás deles) sexan accesibles ao noso público. De xeito semellante ao anterior, menos é máis. Debemos fuxir de textos excesivamente longos e redundantes. Moi útil para o contexto. Grazas á palabra podemos relacionar datos que a priori non son máis que cifras. Un exemplo: que podería significar un gasto de 100M de euros en algo? Se é en sanidade é pouco, se é en ceas ou coches oficiais non. Consello: falar de unidades manexables e que se poidan entender: € por persoa, veces por día. 5.3 Comunicación nas redes sociais • • - Espazo no que o xornalismo de datos obtén un éxito notable, en parte grazas a ese proceso de amosar elementos “espectaculares” e con alto impacto nas audiencias. Pero non só comunicación. Estes espazos empréganse para: Datos de uso dos seus sistemas: elaboración de pezas enfocadas nos gustos da audiencia Publicación segundo os “temas do momento”: busca do impacto nun escenario competitivo. As accións da audiencia como fonte xornalística: espazos de preguntas e enquisas ou concursos á nosa audiencia. 5.4 Humanización • • No xornalismo de datos é habitual dar conta de historias que poden ter (e teñen) relación co que se vive na realidade. Exemplo: cando falamos dos tempos de espera para unha cita médica. Eses tempos non son algo alleo, hai persoas que teñen que pasar por eles. Nestes casos, ademais, axuda completar a peza de xornalismo de datos co testemuño de persoas que teñen que pasar por eles (no caso de que queiramos amosar que son máis longos do habitual) 16 • Isto, ademais, permite que o xornalismo de datos conecte ou se aproxime máis á cidadanía. Fai os datos menos abstractos. Nota: detrás das cifras e etiquetas, hai persoas. A humanización axuda a conectar coa audiencia. 5.5 Personalización - Interatividade: unha das grandes posibilidades oportunidades para o xornalismo nos últimos anos. Oportunidade para o xornalismo de datos: pódese facer que a audiencia poida controlar a información que se lles presta: Aplicando filtros. Con buscadores. Nas pezas de visualización. Experiencias únicas e individualizadas: co noso código postal pódeos identificar as tendencias na nosa zona, por exemplo. Nota: Que supón a súa realidade nese conxunto de datos? 5.6 Uso • • • Creación de ferramentas baseadas nos datos. Conecta coa idea de persoalización: por exemplo, elaboramos un pequeno xogo no que convidamos á audiencia a introducirse dentro do conxunto de datos ou ir descubrindo a historia de forma secuenciada. Ex. ¿Qué sabes sobre Usain Bolt? (RTVE Lab, 2016). En ocasións tamén se crean webs específicas e aplicacións baseadas en produtos xornalísticos. Todo co obxectivo de extraer máis partido do traballo realizado (investigación e proceso de traballo cos datos) e ganar notoriedade. The inverted pyramid of Data journalism (complete) Xornalistas de datos Condicións do xornalista de datos segundo Sandra Crucianelli (2013): - Idiomas (sobre todo o inglés): os rexistros poden estar en moitas linguas. Adestramento e reciclaxe permanente: novas ferramentas, novos sistemas, novos procedementos. Habilidades para a busca avanzada: non abonda con usar o navegador, hai que ter indentificadas fontes e mesmo buscar onde a outros lles parece que non hai información. Coñecementos de estatística e do uso de follas de cálculo: vitais para extraer a historia que hai dentro dos datos. 17 - Coñecemento da visualización da información como ferramenta de utilidade para esta actividade. Obxectivos: sacarlle o máximo partido aos datos, informar á poboación e lograr impacto cos nosos proxectos. Tema 3: Extracción das historias tras os datos A estatística Que entendemos por estatística? A estatística ocúpase dos métodos científicos para recolleitar, organizar, resumir, presentar e analizar datos para sacar conclusións e tomar decisións en base ao análise. O termo emprégase para facer referencia aos datos ou valores asociados como poden ser os promedios. Murray R Spieguel, Larry J Stephens (2001). Estadística. McGra. É unha ciencia matemática que ofrece métodos para analizar dato e regras para obtelos e sacar resultados xerais a partir de cifras concretas. Idoia Portilla (2004). Estadística descriptiva para comunicadores. Eunsa (p.13) Dous terreos Descritiva ou dedutiva - Descrición e análise dun grupo determinado, sen sacar conclusións ou inferencias sobre un grupo maior Aplicable ao conxunto concreto Exemplos: tendencias centrais (media, mediana e moda), dispersión (cuartos, décimos, varianza, desviación estándar). Inferencial ou indutiva - Para mostras que son representativas dunha poboación Realiza estimacións aplicables a un conxunto maior a partir dunha mostra Estas inferencias non chegan a ser precisas por completo, polo que para a extracción de conclusións emprégase a probabilidade Comprobación de hipóteses previamente formuladas (si/non). Exemplo: saber se os estudantes de xornalismo fan x. Tomamos unha mostra ampla da clase e miramos os resultados para unha maioría. Etapas dunha investigación estatística - Planificación: definición de obxectivos Recollida de datos (estatísticos) Tratamento e análise estatística Presentación de resultados 18 Etapas dunha investigación estatística 1. • • - • - Planificación Definición dos obxectivos da investigación Identificación das características que queremos estudar Non se estuda de xeito similar un conxunto de datos ao que accedemos a través dunha base de datos que algo que precisa de crear un formulario e facerlle enquisas a un determinado número de persoas. Delimitar: Poboación de interese (unidades/elementos/conxuntos a estudar) Soporte para a investigación ou no que están os datos Ámbito do estudo 2. Recollida de datos Enquisa/cuestionario - Elaboración do cuestionario Deseño da mostra (canta xente vou precisar para que sexa representativa) Adestramento de entrevistadorxs Recollida de datos Tratamento dos datos (limpeza e corrección de erros e tratamento estatístico) Se os datos xa foron rexistrados: - Identificación dos datos na fonte orixinal e noutras complementarias Recollida de datos Tratamento dos datos (limpeza, corrección, facer que sexan homoxéneos e equiparables) 3. • • • • Tratamento e análise estatística Análise descritiva dos datos obtidos (frecuencias, medidas de posición central, etc.) Estimación de erros (da mostra e externos a ela). Emprego de métodos estatísticos (análise multivariante, regresións). Modelización estatística (formúlase un modelo e contrástanse as hipóteses dentro do mesmo). Un modelo é algo semellante a un experimento, pero no campo da estatística. Deseñamos un protocolo para “probar” algo ou se advertimos algo 4. • • • Presentación de resultados Selección do relevante á hora de presentar Decisións sobre o formato, o estilo e a organización dos temas Comunicación (xornalismo) Conceptos que debemos coñecer (importantes) Poboación - Universo • • Conxunto de elementos que posúen certas características e que son o obxecto da nosa investigación cando empregamos a estatística. A poboación está composta por individuos (unidades que a compoñen). 19 • • - O número de individuos determina o tamaño da poboación. Segundo o tamaño a poboación pode ser: Finita: alumnado da clase, podemos contalo. Infinita: número de planetas no universo. Hai demasiados que dende o punto de vista estatístico asúmense como infinitos (os graos de arroz en china tamén sería considerado infinita). Observación da poboación-universo Poboación • • • Exhaustiva ou censo. (todos e cada un dos individuos). Parcial: (xa non estudamos a todos os individuos senón unha serie de conxuntos). Mostra: aleatoria ou non aleatoria. (serie de individuos. A aleatoria segue normas ex. Dunha determinada rúa, saltándose unha persoa da lista, etc.). Subpoboación (ex. Persoas entre 15-25 anos). Mixta (combina trazos de ambas, normalmente en fases distintas. Ex. Unha parte parcial e logo exhaustiva). Observación exhaustiva ou censo - Medición de todos os elementos da poboación Exemplos: o catastro, o padrón, un directorio telefónico. Observación parcial Mostra • • • - Subconxunto representativo de elementos da poboación. Os datos obtidos son equiparables ao que se asume que é a tendencia no conxunto xeral (na poboación). Técnicas de mostraxe (para a selección da mostra): Aleatoria: todos os elementos da poboación teñen a posibilidade de ser escollidos para a mostra. non aleatoria: selección conforme a uns criterios (conveniencia, dispoñibilidade, bóla de neve, etc.). 20 Subpoboación: • É o conxunto de individuos que comparten unha serie de características. Exemplo: Moz@s de 15 a 25 anos. Nesta subpoboación non entra xente de 14 nin 26 anos. Nota: vai sempre en función dos criterios que escolla. Non sempre facemos os estudos coas mesmas unidades de medida ou nos mesmos grupos de subpoboación. Observación mixta • Combinación da observación exhaustiva e da observación parcial. Tipos de Variables Variables segundo o tipo de valores Propiedades, trazos ou calidades dos elementos dunha poboación sobre os que se realiza unha investigación. • - Poden ser: Cualitativas: atributos // Valores non cuantificables numericamente // Home/muller. Cuantitativas: Variables // Valores cuantificables numericamente // Idade. Tipos de variables cuantitativas - Variables cuantitativas discretas: toman un número finito de valores. Os decimais non teñen sentido. Ex. Fillos por muller. Unha muller non pode ter 1,2 fillos. Variables cuantitativas continuas: toman un número infinito de valores dentro dun intervalo. Os decimais aquí si que teñen sentido no rexistro Ex: estatura. Variables seguindo as escalas de medición • • • • Variables de escala nominal Variable de escala ordinal Variable de intervalo Variable de razón ou proporcional Variables de escala nominal • • • • • • - Nominal = nome Non numérica Contan con categorías sen orde entre elas Equivalentes ás variables cualitativas Permiten a realización de táboas, gráficos e moda Exemplos: Sexo: home, muller Marcas: Adidas, Nike, Puma, etc. Cores: azul, vermello, amarelo, verde, gris, etc. Podemos contar cantas veces está presente esta característica no conxunto e/ou facer táboas e gráficos comparando a presenza destas variables 21 Variables de escala ordinal • • • • • • - Ordinal= orde Non numérica Contan con varias categorías con orde entre elas As distancias entre as categorías non son iguais Pódense facer táboas, medianas (50% dos datos a cada lado) e cuartos Exemplo: Grao de estudos: Sen escolarizar- Primaria - ESO- Bacharelato- Formación Profesional – Grao universitario - Máster- Doutorado (Nota: é como ir subindo chanzos nunha escaleira). A suma destas variables non ten sentido. Sumar ESO + Máster non ofrece un resultado válido. Variables de escala de intervalo • • • • • - Numérica (cuantitativa) Intervalos entre as categorías Orde nas categorías e diferenciadas iguais entre si Ausencia dun punto 0 (cero absoluto). Pode haber valores negativos Exemplo: Temperatura: hai 0º, pero tamén 10 e menos 10. Non ten un valor cero absoluto que é que detrás do cero non haxa datos 0 = 32F = 273,15K Variables de escala de razón ou proporcional • • • • - Numérica (cuantitativa) Existencia dun punto cero absoluto. Unha persoa con 0 meses de idade tamén ten 0 anos de idade (pero igual non cero días). Pódense facer todo tipo de operacións: medias, medianas, modas, etc. Exemplo: Idade: 1, 2, 3 anos. 10 anos, 12 meses e 20 días. Nunca poderá ter un valor negativo. Investimento en sanidade: un investimento de 0 euros tamén o é de 0 dólares e de 0 libras. Hora de xogar Parámetros de interese Razón ou cociente • • - División entre magnitudes distintas Ex: número de coches/habitantes 6549 coches e 5694 habitantes Dividimos os coches entre os habitantes: 1,15 coches/habitante (este é o cociente) Índices • • Evolución relativa ao longo do tempo dunha magnitude económica (prezos) dun conxunto de bens con respecto a un período base de referencia 0 Ex: o Índice de Prezos de Consumo (IPC): valoración mensual dun conxunto de bens e servizos (“cesta da compra”) con respecto a unha base establecida no 2016, no caso de España. - A metodoloxía do IPC en España pode consultarse en... 22 - Se o prezo da “cesta da compra” é de 100€ e o IPC sube un 3% quere dicir que esa cesta da compra ten agora un valor de 103€ . Nota: para magnitudes distintas Taxas • • • Parte que representa algo dentro dun todo (entre iguais dentro dunha poboación) Diferenza con respecto á razón ou cociente (nesta era unha división entre magnitudes distintas Exemplo: a taxa de paro é o resultado de dividir a cantidade de persoas en paro entre as persoas activas e multiplicar por 100 Variación • Comparación entre os valores dunha serie en tempos distintos Variación absoluta: • • - Diferenza entre dous valores dunha serie. Un serie de base e compárase co rexistro anterior Exemplo: variación absoluta entre abril e maio: Dato de maio-dato de abril= variación absoluta (en unidades) 125,6-116,4=9,2 unidades Calcula a variación entre xaneiro e abril Xaeneiro 256.6 Para calcular: Febreiro 296.6 Marzo 256.7 Abril 266.8 Datos de Febreiro - Datos de Xaneiro = Variación absoluta 266.8 - 256.6 = 40 unidades (variación absoluta positiva) Nota: primeiro vai o dato máis próximo • Se queremos a variación entre febreiro e marzo: Para calcular: Datos de Marzo- datos de febreiro 256.7-296.6= -39.9 unidades (variación absoluta negativa) Nota: podemos gañar ou perder unidades Variación relativa • • • Comparación entre os valores dunha serie en tempos distintos Taxa de variación relativa (%): diferenza entre dous valores dunha serie Exemplo: taxa de variación relativa entre abril e maio: 23 (Valor de maio - valor de abril) dividido entre valor de maio e multiplicado por 100 = taxa de variación relativa 7.32% de variación entre abril e maio Nota: o mais recente menos o anterior dividido entre o máis recente e multiplicado por 100 Porcentaxes: • Números de casos que compren unha condición entre o total e multiplicado por 100 • Exemplo: persoas con ollos azuis: collemos o número de persoas con ollos azuis, dividímolo entre o total de persoas e multiplicamos por 100. Calcula a porcentaxe Idade Grupo 1 Grupo 2 Grupo 3 Total Grupo 1: 29/85x100 Número de persoas 29 30 26 85 Porcentaxe 34.12% 35.29% 30.59% 100% Medidas de posición central Media aritmética • • • Medida de posición ou tendencia central Variables cuantitativas, de escalas de razón ou proporcionais e de intervalo (non nominais) Exemplo: nota media do expediente Materia A B C D E Nota 9.8 5.6 6 2.5 6.3 Nota+0.2 10 5.8 6.2 2.7 6.3 Cálculo 9.8+5.6+6+2.5+6.3/5 = 6.04 24 10+5.8+6.2+2.7+6.5/5 = 6.24 Nota: a media ten unha particularidade que se a todos os valores sumamos, restamos ou multiplicamos por un valor concreto, transfórmase nesa mesma medida. Nota: a media sempre tende aos extremos como xa dixemos (exemplo das idades do día anterior). Mediana • • • Medida de posición ou tendencia central Valor da variable que deixa o mesmo número de individuos por enriba e por debaixo del unha vez organizados todos de menor a maior (ou viceversa) Empregada en variables de escala ordinal, de intervalo e de razón. Nunca en normais. Se se suma ou resta un valor a todos os valores de variable a mediana aumenta ou diminúe ese mesmo valor Se se multiplican ou dividen os valores por un valor a súa mediana multiplícase ou queda dividida por ese valor • Vantaxes: non se ve tan afectada pola existencia de valores atípicos ou extremos dentro da serie Exemplo 1: Grupo de persoas coas seguintes idades 21 22 23 22 25 Como o número é impar é sinxelo. Só temos que ordenar os números de menor a maior e escoller o que ocupe o punto central: 21 22 22 23 25 Exemplo 2: Grupo de persoas coas seguintes idades O número de individuos é par. A mediana será a media dos dous que ocupan os lugares centrais 21 22 22 23 24 25 anos 22+23/2=22.5 anos Moda • • • • • Medida de posición ou tendencia central. Aplicable a todo tipo de variables. Valor da variable que mais se repite. Diferenzas no cálculo segundo a forma na que se nos ofrecen as variables. Non se calcula igual para: Datos desgarrados en táboas. Intervalos coa mesma amplitude Intervalos con distinta amplitude Pode haber dúas modas (variables bimodaris) ou tres (trimodais) 25 • No caso de variables cuantitativas, se sumamos ou restamos a todos os valores un valor, a moda aumenta ou redúcese nese mesmo valor. Se multiplicamos ou dividimos os valores da variable, a moda multiplícase ou divídese nese mesmo valor Exemplo: marcas de camisetas que visten un grupo de persoas: Persoa Marca A B C D E Exemplo 2: marcas de camisetas que viste un grupo de persoas Marca Adidas Nike Puma Fila Pull & Bear Adidas Nike Nike Puma Nike Cantidade de persoas 15 18 6 8 10 Medidas de dispersión Rango • • • • - Diferenza entre o maior e o menor valor da variable. Vantaxes: sinxelo de calcular. Desvantaxes: só ten en conta dous valores da serie e influencia dos valores extremos (moi grandes ou moi pequenos). Exemplo: idade das persoas que pertencen a un grupo de teatro Maior: 65 anos Menor: 23 anos Rango: 65 – 23 = 42 anos Cálculo do rango 65, 66, 32, 25, 15, 29, 9, 66, 48, 12, 14, 16 65, 66, 32, 25, 15, 29, 9, 66, 48, 12, 14, 16 66 – 9 = 57 26 TEMA 4: A visualización de datos Home de Viturbio - Leonardo Da Vinci • • Representación das proporcións descritas polo arquitecto. É unha representación visual dos datos Mapa do metro de Londres Harrry Beck, 1933 Importante • • Uso de “visualización da información” e de “visualización da datos” de xeito indistinto Identificación, ás veces, con “infografía”. Área en expansión Falamos un anaco sobre o escenario actual - É difícil conseguir información hoxe? Recibimos máis información ou menos que hai uns anos? Por onde vos chega a información? Tedes a sensación de saturación sobre algún tema ou nalgún momento? Lembrades todo o que vedes? A visualización da información/datos Unha visualización é calquera representación visual da información deseñada para permitir a comunicación, a análise, a descuberta, a exploración, etc. Alberto Cairo (2016, p28) A visualización da información é máis que a representación visual de datos. É máis ben o proceso de disección dos datos en bruto que por si sós teñen escaso significado para presentalos dun xeito no que deixan de ser complexos. Ana Figueiras (2014) Transformación da información en imaxes que facilitan a extracción de significado. Ignasi Alcalde (2015) Nota: pasamos de números complexos que non nos din nada, a unha imaxe que podemos interpretar. Particularidades da área da visualización Área difusa (Ignasi Alcalde, 2015) • • Historicamente difusa porque non queda claro se é xornalismo, arte, ciencia de datos, comunicación, deseño, etc. A resposta é que é un pouco de todo. Aproveita circunstancias como: • A construción do noso cerebro e a existencia dunha parte destiñada ao procesamento de información visual. 27 • • Preferencia humana polos formatos eficientes, atractivos e entretidos (Lankow, Ritchie e Crooks, 2013, p.42). Potencial para axudar ás persoas a atopar información que precisan de xeito máis efectivo (Chaomei Chen, 2006, p.34). Contexto no que se expande o uso da visualización • • • • • Aparición e fortalecemento do Big Data. Aparición e fortalecemento do Open Data. Rexistro constante de análises (datos) sobre calquera temática. Necesidade de instrumentos que permitan interpretar e comunicar todo aquilo que implican eses datos masivos. Aparición de ferramentas e tecnoloxías que facilitan a produción de gráficos, mapas e outros materiais de visualización. De datos a coñecemento Continuum of understanding Proceso no que os datos pasan por 4 fases: de atoparse en bruto ata ser comprendidos polo ser humano- Nathan Shedroff (1999). 1. Data (Datos) Entidades que carecen de sentido por si soas. Números tomados de xeito singular que carecen de utilidade para o publico xeral se os tomamos de xeito illado. 2. Information (Información) • Consecuencia da transformación e organización dos datos. • Recollida e presentación dos datos en bruto dun xeito comprensible e acompañados do seu contexto. 3. Knowledge (Coñecemento) • Súmase aos dous anteriores a experiencia previa adquirida. • O coñecemento é consecuencia das experiencias anteriores vividas pola persoa que, ao observar un traballo de visualización, fan o exercicio da ligalo a algo visto ou coñecido con anterioridade. 28 4. Wisdom (Sabedoría) • Etapa máis alta do proceso de coñecemento. • Establecemento de relacións e xuízos sobre os datos dos que parte unha visualización. Proposta de Alberto Cairo (2011) Información desestruturada: Realidade ou mundo que nos rodea con todas aquelas ideas e fenómenos susceptibles de ser observados. Datos: rexistro da observación da información desestruturada, realizado a través de símbolos empregados para describir a realidade á que se fai referencia. Primeiro nivel de codificación. Información estruturada: Segundo nivel de codificación. Presentación dos rexistros de forma que sexan comprensibles. Necesario para que unha serie de datos poda ser entendida. Coñecemento: Aumento de coñecemento a través de procesos de asimilación e comparación con experiencias previas por consumo de información estruturada. Sabedoría: Coñecemento profundo. Non todo o coñecemento acaba converténdose en sabedoría, do mesmo xeito que non toda a información chega a ser coñecemento. Beneficios da visualización Tres beneficios da visualización (Ignasi Alcalde, 2015) 1. Evita o exceso de información - Ferramenta útil para combater o exceso de información que existe no momento actual. Ás veces identifícase a cantidade de información dispoñible con claridade ou coñecemento. - O máis importante neste contexto é recibir información relevante e de calidade - Visualización de datos: filtrado e foco no máis relevante - Permite lembrar o importante. 2. Facilita a comprensión • Mellora a socialización do contido. • Evita o exceso de información • Facilita a comprensión - Os humanos somos seres visuais. - Interpretamos a linguaxe visual de xeito máis rápido que a escrita. - Recordo de arredor do 20% do que lemos (escasa retención da información escrita). - Maior recordo daquilo que foi visto. 3. Mellora a socialización do contido. - Mundo hiperconectado - Múltiples impactos - Contidos atractivos, sendo sinxelos de consultar - Visualización como elemento de reclamo 29 A natureza dos datos Datos e tarefas Ben Shneiderman* (1996) caracteriza o traballo coa visualización da información dende dúas ópticas: 1. Tipos de datos que fan posible o traballo. 2. Tarefas de navegación ou recuperación da información. *Investigador no eido da informática. As dúas preguntas de Berinato • • Trátase dunha información conceptual ou baseada en datos? A miña intención é narrar ou explorar algo? Usabilidade e percepción Enfrontarnos á dificultade da narración • • • Substrato espacial: Aproveitamento do espazo dispoñible en dúas dimensións (X e Y), pero tamén en tres dimensións (contidos hiperdimensionais). Elementos gráficos: unidades situadas sobre o substrato espacial (puntos, liñas, volume e superficie...). Á hora de producir: selección e combinación segundo a súa pertinencia. Propiedades gráficas: conexión coa percepción dos usuarios e a capacidade do seu ollo para a recepción do percibido co coñecemento adquirido. As máis frecuentes: tamaño, orientación, cor, textura e forma. Usabilidade “A medida na que un produto pode ser usado por usuarios específicos para acadar obxectivos especificados con eficacia, eficiencia e satisfacción nun determinado contexto de uso” • • • • • • • Aínda que a ISO abre ese concepto a calquera campo, no ámbito informática adoita aplicarse ao software, as aplicacións dos móbiles, videoxogos, etc. En definitiva, facer a experiencia do usuario máis sinxela. Idea detrás do concepto da usabilidade: como de complicado vai ser que os usuarios aprendan a usar ou entendan o meu produto? User-centered design: deseño centrado nos usuarios. Cada vez facemos os contidos máis axeitado ao noso público (coñecemento e dominio das plataformas, das linguaxes, das tecnoloxías, etc.). O usuario como centro do proceso de deseño. Como se consegue? Varios métodos: Investigación cualitativa e cuantitativa dos nosos usuarios (reais ou potenciais) Test: proba dos produtos e observación do seu funcionamento e comportamento do usuario 30 Percepción - principios Vinculados á psicoloxía, fan referencia ao proceso humano de identificar patróns ou relacións entre elementos: - Proximidade Similaridade Conexión Continuidade Simetría Clausura/ lei de peche Tamaño relativo Agrupación dos elementos segundo a dirección Simplicidade Familiaridade Estes principios e algúns outros temos que telos en conta cando elaboramos traballos de infografía ou visualización de datos Alfabetización visual “Refírese a competencias visuais que unha persoa pode desenvolver ao ver e ao mesmo tempo ter e integrar outras experiencias sensoriais” “O desenvolvemento de ditas competencias é fundamental. Permiten a unha persoa discriminar e interpretar acción, obxectos, símbolos, etc.” 31 TEMA 5: Automatización e datos Intelixencia artificial e xornalismo Xornalismo: Área en permanente transformación • • • Simplificación das tarefas Mellora de procesos Redución de custes Cambios que levan a... • • • Big Data Creación de novos formatos (Realidade Virtual e Aumentada, Visualización de datos, formatos interactivos e multimedia) Transformación das rutinas e procesos de traballo Unha das transformacións máis destacadas nos últimos anos • Aplicación da Intelixencia Artificial (IA) “Facer máquinas intelixentes que fagan procesos non mecánicos ou repetitivos, que teñan certa conciencia e aspiren a mellorar ditos procesos. Buscamos ese paralelismo de usar ordenadores para imitar a intelixencia humana. Non se fía todo a que sexan cousas que teñan un corpo físico, senón que é algo informático (tampouco mecánico)” John MCarthy. A chegada da automatización • • • - Aposta pola innovación Crise económica: a aplicación de ferramentas como a IA ven da man de pensar que nos poden axudar a reducir os custes. Dixitalización: Sociedade cada vez máis dixital. Aposta pola conexión coas audiencias. Varios nomes para esta realidade - Xornalismo robotizado Xornalismo algorítmico Xornalismo automatizado Xornalismo computacional Xornalismo aumentado Xornalismo artificial Xornalismo de alta tecnoloxía Potencial da aplicación da automatización no xornalismo - Xeración de noticias de xeito máis rápido, a maior escala e menor cantidade de erros Os algoritmos poden empregar os mesmos datos para elaborar historias en múltiples linguas e dende diferentes ópticas, personalizando estes contidos Os algoritmos teñen o potencial de xerar noticias baixo demanda Andreas Graefe (2016) 32 Nota: a personalización provoca que nos metan nun túnel, cerrando o noso ángulo de visión. Isto é algo moi perigoso para a pluralidade e fomenta a aparición de extremismos. O xornalismo non deixa de ser confrontar ideas, non podemos abusar da personalización. Os inicios da automatización ELIZA (1996): Primeiro chatbot que parte dun experimento sobre a linguaze natural. Comezos da automatización no xornalismo Quakebot - Los Angeles Times 2014 Primeiro bot xornalístico Algoritmo que monotoriza bases do instituto xeolóxico para atopar terremotos Xornalismo automatizado, opcións • • • • Busca a extracción de datos dunha base de datos para encher espazos mediante unha plantilla definida Análise dos datos buscando conexións para producir novas narrativas máis elaboradas Capacidade de facelo en segundos Importancia no xornalismo local A xeración de noticias mediante algoritmos 1. 2. 3. 4. 5. - Recolección de datos Fontes predefinidas / minaría de datos Creación de datos Identificación de mensaxes Análise estática Regras predefinidas Xerarquización Pertinencia informativa / Noticiabilidade Aplicación de regras predefinidas Xeración da narrativa Construción do relato seguindo un formato e normas Aplicación do estilo (cores, expresións, etc.) Publicación Difusión a través do medio Publicación automática / tras revisión editorial (humana) Escenario non exento de debate. Algunhas cuestións 1. 2. 3. - Para os xornalistas Redución da carga de traballo Perda de postos humanos Para as audiencias Calidade insuficiente Necesidade de transparencia para os contidos personalizados Para os medios de comunicación Fontes: ter dereito bos datos cos que se traballa Procesamento: revisión de erros do algoritmo 33 4. - Vixilancia: necesidade de mecanismos de control ou filtrado Para a sociedade Sobreinformación Personalización leva ao consumo de noticias homoxéneas Filtro burbulla: illamento froito do anterior Exemplos de uso da Intelixencia Artificial En diversos ámbitos • • • • • • Axilizar os fluxos de traballo. Ex. BBC Juicer. Automatización de tarefas Máis datos a maior velocidade Correlación entre informacións. Procura de contidos relacionados de forma automática. Loita contra as noticias falsas. Emprego da IA para a detección de patróns de palabras que poden sinalar unha historia como falsa. Xeración de resultados en forma de informes e historias que se elaboran a partires de datos en bruto. (créase unha plantilla e xéranse contidos en forma de historias) Análise de tendencias: NewsWhip Uso da IA para coñecer de que se fala en cada momento. Espazos como redes sociais onde se fai tarefa de filtrado. Unha especie de foros abertos. Sophi – The Globe and Media Coloca os contidos na páxina do medio arredor da conversa que se xera dun tema ou doutro. • • • • Toma decisións obre o contido Detecta contidos existosos Coordinación con espazos como Facebook Crecemento da efectividade Empresas especializadas na creación de ferramentas dixitais vinculadas ao xornalismo e creación de noticias baseadas na IA: United Robot Proxecto SALCO-BBC - Algoritmos para o tratamento de información local Mestura do traballo clásico con “algo de automatización” A Minaría de Datos (Data Mining) Análise de grandes conxuntos na que buscamos relacións que a priori parecen inexistentes e que empregamos para facer un especie de resumo ou panorámica da información, de xeito comprensible e útil. É dicir, procuramos as relacións entre os datos e delas extraemos cousas que sexan útiles e interesantes. Proceso no que se usan diferentes ferramentas para a análise dos datos para descubrir patróns e relacións nos datos, de xeito que poidan ser empregadas para realizar predicións válidas- Herbert A Edelstein (1999). 34 Por que e útil a minaría de datos? - Moitos datos novos cada día Diferenciar información importante da supérflua (chegar á información útil e relevante) Extracción de coñecemento dos datos masivos Capacidade de mmoverse neses conxuntos de datos Algunhas tarefas comúns na minaría de datos 1. Clasificación de datos dentro dunha categoría predefinida 2. Regresión: correspondencia dun dato cun valor rea dunha variable. Ex. Tendo estes datos, cal é o desenvolvemento futuro desa variable? 3. Clustering: agrupación de rexistros en observacións, casos ou obxectos similares. 4. Xeración de regras: relacións e asociacións entre os datos. Ex. Canto ten que ter este valor para que sexa superior ao do ano anterior. 5. Resumo ou sumarización: descrición compacta dos datos. Ex cales son as características das persoas que asisten a concertos 6. Análise de consecuencias: estudo dos patróns ao longo do tempo e información da desviación destas tendencias. José C Riquelme, Roberto Ruiz, Karina Gilbert (2006) Protocolos para a xestión de datos Data Warehouse, Data Lake e Data Hub - Solucións de almacenaxe Óptica das institucións que os xestionan (públicas/privadas) Importancia en grandes proxectos de Big Data Data Warehouse - Sistema empregado para almacenamento a longo prazo. Warehouse = Almacenaxe Sistema empregado para os informes e análise de datos Almacéns centrais que integran todos os datos, aínda que poden proceder de diferentes fontes Emprego máis frecuente como punto final que como punto do paso dos datos Data lake - Lago de datos que se atopan en “auga”, en bruto Datos no seu estado natural Almacenaxe onde se inclúe unha gran cantidade de información de todo tipo, tanto estruturada como non Nos sistemas de Data Lake non se pode coñecer ou definir a estrutura dos datos ata que non se xera esa necesidade e procedemos a facelo Nos sistemas de data lake poden procesarse os datos e envialos qa un sistema de almacenaxe data warehause 35 Data hub - Centro de datos Integración de todos os datos nun mesmo punto, aínda que coa caop de moberse e ordenarse de novo nun sistema distinto Permite que estes datos se ordenen, analicen e descubran Enfoque que busca organizar os datos de xeito máis eficaz. O punto final (xa sexan apps, procesos, persoas, algoritmos, etc. )interactúa con este centro para proporcionarllle datos ou recibilos del. TEMA 6: Marco legal e ético no traballo con datos Transparencia e acceso á información Transparencia “La transparencia, el acceso a la información pública y las normas de buen gobierno deben ser los ejes fundamentales de toda acción política. Sólo cuando la acción de los responsables públicos se somete a escrutinio, cuando los ciudadanos pueden conocer cómo se toman las decisiones que les afectan, cómo se manejan los fondos públicos o bajo qué criterios actúan nuestras instituciones podremos hablar del inicio de un proceso en el que los poderes públicos comienzan a responder a una sociedad que es crítica, exigente y que demanda participación de los poderes públicos” Lei 9/2013, do 9 de decembro, de transparencia, acceso á información pública e bo goberno Rómpese co modelo anterior • • • Audiencia activa que deixa de ser un mero receptor de contidos Cuestiónase o rol da prensa como “cuarto poder” ou garante da liberdade de expresión Escrutinio constante e público da labor dos medios de comunicación. Xornalismo transparente 3 obxectivos (Eva Campos-Domínguez e Marta Redondo-García 2015): • • • Presentación da forma de traballar dos medios de comunicación Formulación de contidos reutilizables Aproveitamento do capital social das audiencias (prosumidores) para que colaboren no proceso informativo. *Prosumidor: evolución do concepto “consumidor”. Non só consume a información, senón que a produce (a través da conversa cos medios) • • - Aparición de iniciativas de verificación e colaboración entre medios de comunicación nesta tarefa. Ex. International Fact-Checking Network Aparición de medios de comunicación especializados no escrutinio das institucións e na busca da transparencia. ProPublica (2007) Fundación Civio (2012). Ex: Orzamentos de 2023. 36 Riscos do traballo con datos Algúns riscos e aspectos a ter en conta no traballo cos datos • • • O uso de Big Data cambia a definición do coñecemento, ao acceder a partes e presentacións da realidade non vistas ata o momento (Boyd e Crawford, 2012). Risco de ver patróns ou conexións en sucesos aleatorios ou datos cuxa conexión non ten sentido (Leinweber, 2007). Que semelle que hai relación ou que dous indicadores se movan de xeito parello non quere dicir que esa relación exista. Acceso sinxelo pero, ético e legal? Por exemplo, traballar da man de Google ou Meta fai que teñamos acceso a moitos datos que fan referencia a comportamentos das persoas (Mannovich, 2001). O Open Data Datos abertos “Los datos abiertos son datos que pueden ser utilizados, reutilizados y distribuidos libremente por cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de compartirse de la misma manera en que aparecen” AAVV (s/f). The Open Data Handbook Tres características dos datos abertos • • • Dispoñibilidade e acceso: a información debe estar dispoñible como un todo e a un custe razoable de reprodución. Reutilización e redistribución: os datos deben ser provistos baixo termos que permitan reutilizalos, redistribuílos e integralos noutros conxuntos de datos. Participación universal: Non debe existir discriminación nin restricións relativas a certos propósitos (por exemplo, só para a economía). Concepto da interoperabilidade • • • • • Traballo conxunto entre os diferentes compoñentes. Idea de que un material aberto poida ser mesturado con outro material. Combinación de conxuntos de datos para explicar ou traballar a realidade. Obxectivo: evitar a Torre de Babel, ter moitos conxuntos de datos pero sen a posibilidade de combinalos en sistemas maiores. Nesa combinación é onde está o verdadeiro valor, a verdadeira utilidade. O Open Data como recurso • • • • • • Xeralmente promovidos polos gobernos ou as institucións públicas. Áreas nas que se pode xerar valor a través do Open Data: Transparencia e control democrático. Participación. Autoempoderamento. Mellora ou creación de novos produtos ou servizos. 37 • • • • Innovación. Mellora na eficacia dos servizos ofrecidos polo goberno. Medición do impacto real das políticas adoptadas. Xeración de coñecementos a partires de fontes de datos combinadas e patróns en grandes volumes de datos. O fluxo do Open Data 38 TEMA 7: Xornalistas e datos Lembramos, contexto do xornalismo de datos • • • ▫ ▫ ▫ • • • Orixe ano “Xornalismo de precisión” (Philiph Meyer) Evolución progresiva a partires da integración de novas tecnoloxías nas redaccións Boom no s.XXI Crecemento das bases de datos públicas e privadas Mellora de ferramentas para a xestión e presentación dos datos Fortalecemento das redes de cooperación entre medios e xornalistas Extracción dunha interpretación cuantitativa a realidades cualitativas Emprego da IA Crecente interese dos medios Xornalistas de datos Condicións que debe reunir o xornalista de datos segundo Sandra Crucianelli (2013): • • • • • Idiomas Adestramento e reciclaxe permanente: novas ferramentas, novos sistemas e novos procedementos. Habilidades para a busca avanzada: non abonda con usar o navegador, hai que ter identificadas as fontes e mesmo buscar onde parece que non hai información. Coñecemento de estatística e do uso de follas de cálculo: extraer historia dos datos Coñecemento da visualización da información como ferramenta de utilidade Xornalistas de datos • • • É preciso anotar que as orixes do xornalismo de datos chegan, de forma xeral, a a partires da colaboración entre varias persoas con distinto perfil Nós como xornalistas temos que coñecer que é o que nos pode aportar cada persoa que pode entrar a formar parte dese equipo e empregar de xeito máis eficiente as pezas que temos á nosa disposición Obxectivos: sacarlle o máximo partido aos dato,, informar á poboación e lograr impacto cos nosos proxectos. Xornalistas de datos - definición • • Persoas expertas en buscar, xerarquizar e filtrar información dentro da enorme cantidade de datos dispoñibles na rede. Pero non debe perderse o básico da nosa profesión: contar historias, narrar información. As necesidades para o xornalismo de datos • • • • Coñecemento en navegación especializada en grandes bases de datos Tratamento dos datos mediante software Visualización de datos Coñecementos propios de xornalismo noutros ámbitos (Arias, Sánchez García e Redondo, 2018) 39 Competencias especificas • • • • • Compilación, limpeza, contexto e comunicación dos datos Busca e cribado de bases de datos en liña Coñecementos de metodoloxía e estatística Combinación de fontes e datos da web- mashup-. Visualización e comunicación a través de mapas, cadros, infografías ou animación Procesos e ferramentas particulares • • • • • GRAN presenza das fontes públicas e oficiais Portais de transparencia Petición de datos Xestión de datos: Excel, R, OpenRefine Visualización de datos: Datawrapper, tableau, Flourish, CartoDB, D3.js. Que se precisa neste traballo? Se facemos un proceso complexo e rico pero non conseguimos trasladar os nosos resultados á poboación, non nos serve de nada. 1. - Habilidades técnicas Traballo con follas de cálculo Programación en Phynthon e R Uso de librarías como ggplot (paquete de visualización de datos) Xestións de bases de datos e da linguaxe SQL (Structuresd Query Language) para consultar as mesmas Coñecementos estatísticos Manexo da busca en internet Capacidade para o scrapping, a construción de conxunto de datos e a súa limpeza e análise. 2. - Coñecementos sobre os datos Habilidade para a petición de datos e coñecementos sobre os datos abertos Coñecementos sobre as fontes de datos Capacidade de comprender metadatos Capacidade para verificación Procura da fonte orixinal Comprobación da veracidade e confiabilidade dos datos noutras fontes Aplicación de técnicas das ciencias sociais (enquisas, entrevistas, etc.) 3. - Desempeño do traballo e interaccións con outros Consulta con persoas do ámbito da estatística Relación cos organizacións para peticións de datos Explicación de procesos a compañeirxs de profesión Colaboración con xornalistas non especializados no xornalismo de datos Colaboración con xornalistas de datos do propio medio Colaboración con outras áreas da redacción como a de visualización ou a de programación Establecemento de redes con xornalistas de datos doutros medios 40 4. Toma de decisións e resolución de problemas - Xulgar a fiabilidade dos datos. - Xulgar a noticiabilidade dos conxuntos de datos e das historias que se poden elaborar con eles. - Capacidade para liderar e coordinar proxectos. - Realización de comprobacións para garantir a exactitude das historias baseadas en datos - Buscar historias nos datos para darlles voz humana. - Atopar o balance entre historias individuais e a fotografía ou a panorámica xeral. - Establecer xuízos sobre a pertinencia dos datos, facéndolle entender á dirección do medio a posibilidade de producir esta historia e a dispoñibilidade dos datos. 41