Subido por raquel.lpzg17

Tratamento de datos na información

Anuncio
TRATAMENTO DE DATOS NA COMUNICACIÓN
TEMA 1: Os datos hoxe
Definindo o que son os datos
Unha pequena vista ao dicionario (NON ENTRA NO EXAME)
Dato
1. Elemento que serve de base para o exacto coñecemento dunha cousa.
2. Elemento de información que se pode tratar mediante un sistema informático (definición
mellor adaptada).
Todo o que dixemos podemos resumilo na seguinte idea:
"Todo pode ser rexistrado, contado e medido”- Giorgia Lupi e Stefanie Posavec (2016). Dear data. New
York: Princeton Architectural Press.
Mapas temáticos
Exemplos:
-
Cadro cronolóxico para situar autores no seu contexto
Situar brotes de enfermidades e detectar os casos e a súa localización (Exemplo do Mapa do
brote de cólera no barrio Soho, John Snow)
Florence Nightgale (rexistro das causas de mortalidade do exército británico)
Gráfica da campaña rusa de Napoleón coa información das baixas do exército nos
desprazamentos entre Moscú e Francia, relacionando coas temperaturas que eran a primeira
causa de morte.
Comezo do procesamento de datos (finais do s.XIX)
O escritorio de Hollerith
•
•
•
•
•
Contexto: elaboración do censo de Estados Unidos no 1980.
Problema: maior poboación e máis problemas debido ao aumento de datos.
Solución: emprego das tarxetas perforadas (Joseph Jacquard,1801). Os datos representábanse
como furados nas tarxetas e estas metíanse na máquina, que buscaba os ocos dentro dun
circuíto e movía sumaba unha unidade ao reconto a través dun dia.
Beneficios: redución do tempo necesario para completar este censo, xa que se podían recoller
e analizar grandes cantidades de datos. Grazas ás máquinas púidose facer nun ano o que antes
levaba oito.
Fundador dunha empresa que acabou sendo parte de International Business Machine (IBM)
Tarxetas perforadas de Hollerith
O reto da almacenaxe (s.XX)
•
•
O problema do rexistro e o procesamento queda resolto (cando menos de xeito inicial) coa
introdución de sistemas como o escritorio de Hollerith.
Novo reto: a súa almacenaxe.
1
Evolución da almacenaxe (s. XX)
Rexistro magnético
-
VHS (1976).
Betcam (Sony,1982).
Cintas DV – Digital Video (1996).
Disco duro magnético (IBM,1956).
Disquete (1971).
Rexistro óptico (electrónico-láser)
-
CD-ROM- Compact Disc Read-Only Memory (1985),
DVD – Digitale Versatile Disc (1996).
CD-RW – Compact Disc – ReWritable (1997).
A idea da nube (década de 1960)
Joseph Carl Robnett Licklider:
-
ARPANET: Rede de ordenadores intercomunicados
A.R.P.A. - Advanced Research Projects Agency.
Idea dunha “rede intergaláctica de ordenadores” na que se puidera acceder aos datos e
programas en calquera momento, por calquera persoa e en calquera lugar.
Cara as bases de datos relacionais (década dos 70)
Proposta de Edgar Frank Codd:
-
Datos organizados en filas (representan unha entrada) e columnas (categorizan a
información)
As relacións entre estes datos denomínanse esquema.
A chegada de Internet (década de 1990)
-
Ligazóns e hipertexto: posibilidade de compartir os datos con todo o mundo.
Desenvolvemento de espazos de almacenaxe web.
Comezo do fenómeno Big Data.
1997: Google.
Intelixencia artificial e Machine Learning
•
•
•
Elementos fundamentais no desenvolvemento do rexistro e o tratamento de datos na
actualidade
Intelixencia artificial: combinación de algoritmos para a programación de máquinas con
capacidade semellantes ás do ser humano.
Machine Learning: capacidade das máquinas para recoñecer e desenvolver patróns de xeito
continuado, realizando predicións baseadas en datos. Logo diso tamén realizan axustes sen
ter sido programadas especificamente para iso (capacidade de aprendizaxe da súa propia
experiencia).
2
O ciclo dos datos
Posibles fases ou momentos na “vida” dos datos:
1.
2.
3.
4.
5.
6.
Captura.
Mantemento.
Utilización.
Publicación.
Arquivo.
Eliminación.
Fase 1: Captura
•
•
•
•
•
-
Fase tamén denominada “inxestión” (comernos os datos).
Recompilación de datos de fontes diversas: creación de novos datos e adquisición de datos
de fontes externas.
Chegada dos datos á organización a través do uso de diferentes ferramentas e/ou métodos:
Manuais.
Asistido (software, automatización).
Dous xeitos de facer este rexistro:
En tempo real (conforme se crean).
Por lotes (inxestión cada certos períodos de tempo).
Almacenaxe en bases de datos.
Estes datos poden ser:
Xerados polos usuarios e rexistrados polas propias organizacións (Ex. Tipos de solicitudes
que se presentan ante a Xunta)
Froito da investigación (Ex. Creación dun inventario dos materiais dunha organización xunto
coas súas características).
Fase vital do proceso: os erros nesta fase arrástranse nas posteriores e dificultan a tarefa de
limpeza e arquivo.
Resumo: a captura ou inxestión de datos é a acción de tomar os datos e facelos accesibles para o
seu uso.
Fase 2: mantemento
•
•
•
Procesamento dos datos sen obter aínda ningún beneficio ou coñecemento.
Distinta procedencia, distintos formatos. Facemos homoxénea a presentación dos datos
convertindoos nun formato comprensible e coherente dentro de todo o conxunto.
Interveñen de novo os software automatizados.
Fase 3: Uso
•
•
•
-
Usamos os datos para xerar ideas, beneficios ou resultados.
Fase crucial do ciclo de vida dos datos: ten pouco sentido rexistralos e traballalos se non se
van usar.
Diferentes tarefas e aplicacións en función do tipo de datos e da actividade:
Para informar.
Para mellorar procesos.
Para identificar debilidades.
Para comprender o estado dunha organización, proxecto, realidade, etc.
3
Fase 4: Publicación
•
•
Fase condicional, non sucede sempre.
Pode ser ao público xeral ou a determinadas persoas/organizacións externas. Exemplo: cesión
dos datos a unha entidade para a elaboración dun informe.
Fase 5: Arquivo
•
•
•
•
Os datos atoparíanse nesta fase cando non é posible identificar que se atopen nalgunha das
outras sinaladas ata o momento (captura, mantemento, utilización e publicación).
Os datos están xa rexistrados e non se atopan nin en fase de enriquecemento nin de uso.
Finalidade desta fase: almacenaxe por se volvesen a ser necesarios.
Elemento de importancia: manter seguros estes datos arquivados.
Fase 6: Eliminación
•
•
•
•
•
Fase final do ciclo da vida dos datos.
Eliminación de todas as copias xeradas.
Motivo: final da vida útil.
En ocasións sáltase a fase de arquivo e pásase directamente á eliminación.
Moitas veces esta acción está vinculada a medidas de protección de datos.
As bases de datos
Algunhas definicións
•
•
Gran conxunto de información almacenada nun sistema informático dunha forma facilmente
observados, traballador e modificados- Cambridge Dictionary.
Combinación de datos ou información organizada para unha busca rápida por un ordenador Britannica.
Elementos a ter en conta cando falamos dunha base de datos
-
Conxunto de datos
Intervención de sistemas informáticos
Capacidade ou favorecemento de certas accións (busca, modificación, etc.)
Unha base de datos é un conxunto de datos que xeralmente describen as actividades dunha ou mais
organizacións - Raghu Ramakrishnan e Johanes Gehrke (2000, p.63)
Por exemplo, a base de datos dunha universidade poderá conter información sobre o seguinte:
-
Entidades como os estudantes, as facultades ou as aulas.
Relacións entre os estudantes matriculados nos cursos, os cursos que se ensinan nas
facultades e o uso das aulas para os cursos.
Unha base de datos é un repositorio estruturado para os datos. O seu propósito xeral é conservar os
datos para algúns dos obxectivos da organización. - Paul Beyon-Davies (2003, p.33).
4
Contexto
-
Maior cantidade de datos (información dispoñible)
Maior valor dos datos
Cobra importancia:
-
Capacidade para a xestión de datos
Ter localizada esa información
Propiedades dunha base de datos
-
Capacidade para que os datos sexan compartidos
Integración dos datos
Integridade dos datos
Seguridade dos datos
Abstracción dos datos
Independencia dos datos
Paul Beyon-Davies (2003, p.33).
Nota: Estas propiedades non teñen por que estar todas presentes.
Capacidade para que os datos sexan compartidos
•
•
•
Data sharing
Polo xeral, os datos almacenados nunha base de datos (entendida como instrumento
promovido dende unha organización) non son exclusivos para o acceso por parte dunha soa
persoa. Agárdase que sexan varias as persoas que accedan a unha base de datos.
Ex. Unha base de datos dunha universidade non é de acceso exclusivo para o persoal docente,
senón que tamén accede p persoal da Administración e Servizos.
Integración dos datos
•
•
•
•
Data integration
Ao outorgar acceso a múltiples persoas debemos garantir a integración dos datos. O escenario
ideal é aquel no que non existen datos redundantes (duplicados).
Un dato redundante aparece cando un atributo ten dous ou máis valores idénticos. Un dato é
redundante se se pode eliminar sen que se perda información.
Ex. Fichas de estudantes. Non ten sentido pedilas porque esa información está incluída na
secretaría virtual.
Integridade dos datos
•
•
•
Data integrity
Unha base de datos debe de amosar de forma fidedigna o universo para o cal é modelo. A a
relación entre o que se representa (no mundo real) e o que recolle a base de datos é plena.
Se acontecen cambios no mundo real deben quedar rexistrados na base de datos
Ex. Base de datos do alumnado matriculado nun curso. Se unha persoa cambia o seu nome a
base de datos debe recoller o cambio.
5
Seguridade dos datos
•
•
•
•
Data Security
Limitar o acceso aos datos e ou á súa edición (unicamente persoas autorizadas).
Tamén hai bases de datos nas que se abre o acceso (bases de datos públicas) pero non a
edición.
Ex. Os Institutos Nacionais de Estatística son un exemplo do último caso. Todo o mundo pode
acceder á información, pero non rexistrala ou editala.
Abstracción dos datos
•
•
•
•
Data abstraction.
Unha base de datos pode ser vista como un modelo da realidade. A información almacenada
na base de datos é un intento por representar as propiedades determinadas obxectos ou
situacións reais
Ningunha base de datos pode rexistrar absolutamente todas as características da realidade, é
só unha abstracción da mesma
Ex. Unha base de datos de estudantes ten información académica e de contacto, pero non a
de pelo, altura, etc.
Independencia dos datos
•
•
•
Data independence.
Os cambios nos datos non poden afectar ás aplicacións e procesos que usan e viceversa
Ex. Se cambiamos o proceso de rexistro (de cubrir un formular a man a facelo online) isto non
debería alterar a información que aparece na nosa base de datos.
RESUMO:
-
Datos: realidade
Proceso: técnicas e sistemas
Independencia entre ambos
Datificación
Idea da “datificación”
•
•
•
•
•
•
-
“Converter algo en datos”- (Ulises A. Meijas e Nick Couldry, 2019).
Proceso que mide e rexistra cada vez máis ámbitos ou parcelas da nosa vida diaria
Os rexistros (datos) dan lugar a bases de datos de utilidade para diferentes tipos de
organizacións e/ou para o uso global da cidadanía.
A crecente presenza de datos na sociedade xera maior confianza e dependencia das
organizacións - (Mark Lycett, 2013).
De forma paralela, democratízanse os procesos de rexistro e uso dos datos, así como a idea
de que se pode xerar/extraer valor a partir deles- (Mark Lycett, 2013).
Os medios de comunicación son parte da datificación, fundamentalmente en dúas vías:
Aplicación do Big Data para a investigación dos patróns de comportamento da audiencia
Big Data como parte dos formatos xornalísticos. Desenvolvemento de narrativas xornalísticas
baseadas nos datos
6
(Amelia H. Arsenault, 2017)
A ciencia de datos
Que é a ciencia de datos?
•
O termo “ciencia de datos” é un enfoque que inclúe os datos e a estatística ou estudo
sistemático da organización, as propiedades e a análise dos datos e o seu papel na inferencia
(detección das causas).
Vasant Dhar (2013).
Que hai dentro da ciencia de datos?
-
Estatística
Informática
Programación
Comunicación
Socioloxía
Xestión dos datos
Pensamento
Longbing Cao (2017).
A ciencia de datos
Empréganse os termos Data Scienci (Ciencia de Datos), Machine Learning (Aprendizaxe Automática)
e Data Mining (Minaría de Datos) de forma indistinta, pero:
•
•
•
O Machine Learning céntrase no deseño e avaliación dos algoritmos para extraer patróns.
A Minaría de Datos focalízase no estudo dos datos estruturados, adoita ter aplicacións
comerciais.
A “Ciencia de Datos” ten en conta eses enfoques, pero céntrase noutros retos como a captura,
limpeza e transformación de datos desestructurados, o uso de tecnoloxías de Big Data para
almacenar grandes conxuntos desestruturados de datos e tamén en cuestións de ética e
regulación no traballo cos datos.
John D. Kelleher e Brendam Rierney (2018). Data Science. Londres: The MIT Press (pp.1-2)
Características dos datos
Datos vs información
•
•
Datos: representación de feitos, conceptos ou instrucións de xeito formalizado para que
poidan ser procesados.
Información: datos organizados e clasificados de forma que conteñan algún elemento de valor
para quen a recibe.
7
Dimensións ou características dos datos
-
Singularidade
Precisión
Coherencia
Completude/Exhaustividade/Integridade
Actualidade/Velocidade para o aceso
Vixencia
Singularidade (Uniqueness)
•
•
•
As entidades son únicas (ou deben selo)
Evitar duplicidades/redundancias, non deben existir máis dunha vez dentro dunha base de
datos
Non se debe crear un rexistro para unha entidade que xa conta cun rexistro previo
Precisión (Accuracy)
•
•
•
•
Grao no que os datos representan de xeito fidedigno os obxectos ou realidades da “vida real”
sobre os que tratan.
Identifícase coa capacidade dos valores rexistrados para ser datos de referencia sobre unha
realidade.
Os datos poden ser rexistrados de diferentes formas e pódense estar rexistrando datos dende
diferentes organizacións ou persoas.
A precisión determina que os datos que contan con esta característica son os que amosan de
xeito máis claro a realidade que abordan.
Consistenia (Consistency)
•
•
•
•
Non confundir con “exactitude” ou “precisión”
Na característica de consistencia, dous valores de datos extraídos de conxuntos de datos
distintos non deben entrar en conflito entre si
Os valores presentes nun conxunto de datos deben ser consistentes cos mesmos valores
cando forman parte doutro
Ex. Os nomes que están na lista de alumnado das sesións expositivas deben coincidir co
resultado do alumnado dos 3 grupos de seminario.
Completude/Integridade (Completeness)
•
•
-
Existencia de valores non nulos asignados a elementos de datos específicos.
Caracterízanse dun destes 3 xeitos:
Asignación obrigatoria de valores: o elemento que conforma o dato debe de ter un valor.
Opcionalidade do valor: o elemento que conforma o dato pode ter un valor (ou non) baixo
unhas condicións específicas.
Valores que non aplican: o valor non garda relación co dato. Ex. Talla de cintura nun rexistro
de calzado
Actualidade (Timeliness)
•
Tempo no que se agarda que a información estea dispoñible e accesible dende que ten lugar
8
Actualización/Vixencia (Currency)
•
•
Grao no que a información está actualizada
Mídese en función da frecuencia na que se agarda que se actualicen os datos principais, así
como os procesos de verificación
O Big Data
Big = Grande e Data=Datos
Traducido en galego como “Macrodatos”
Nota: Son grandísimos volumes de datos que sistematizamos e están en circulación.
Que é o Big Data?
•
O Big data son activos de información con alto volume, alta velocidade e ou alta variedade
que esixen formas rendibles e innovadoras de procesamento da información que permiten
mellorar a visión, toma de decisións e automatización dos procesos.
(Visión empresarial e de procesos)
Gartner (consultora de innovación tecnolóxica): Glosario de termos relacionados coas
Tecnoloxías da Información.
•
•
•
•
Información que non pode ser procesada ou analizada mediante procesos tradicionais.
Cantidades masivas de datos que se acumulan co tempo e que son difíciles de analizar e
manexar empregando ferramentas comúns de xestión de bases de datos.
Tratamento e análise de grandes repositorios de datos, tan grandes que resulta imposible
tratalos con ferramentas convencionais (Enrique Dans, 2011)
“Boom” dende comezos da década de 2010 (Amir Gandomi e Murtaza Haider, 2015). Antes
diso mencionábase en conferencias especializadas nos eidos da informática, pero só como
unha idea.
As V’s do Big Data?
Inicialmente falase de 3 V:
-
Volume: crecente cantidade de datos.
Variedade: complexidade de tipos e fontes de datos.
Velocidade: no relativo á súa creación e dispoñibilidade. Esta velocidade tradúcese tamén en
maior velocidade no relativo ao desenvolvemento dos produtos de software empregados para
tratalos.
Exemplo Twitter:
•
•
•
Volume: as persoas que forman parte da rede xeran un alto volume de contidos (chíos)
Variedade:
Temática: diferentes temas para os chíos
Tipoloxía: só texto, con imaxe, con vídeo, con iconas, etc.
Interaccións coa plataforma: Rt, Favs, resposta, visualización de determinados contidos, etc.
Velocidade: milleiros de chíos por minuto.
9
Como de grande é o Big Data?
•
•
•
O termo Big Data non leva só a idea dos datos masivos en termos de cantidade.
Arredor do Big Data aparece toda unha serie de necesidades, saberes, coñecementos e
disciplinas. Inclúense dentro del o Open Data, a Visualización de datos, a Minaría de datos,
Ciencia de datos, etc.
Todo isto entra a formar parte dun contexto no que o Big Data ten cada vez máis presenza e
forza.
(Jean-Louis Monino e Soraya Sedkaoui, 2016, p. XXXIV)
TEMA 2: DATOS E XORNALISMO
Unha pequena visita ao dicionario
Dato:
1. Elemento que serve de base para o exacto coñecemento dunha cousa
2. Elemento de información que se pode tratar mediante un sistema informático.
Dicionario da Real Academia Galega.
3. Información dispuesta de manera adecuada para su tratamiento por una computadora (esta).
Dicionario de la Real Academia Española.
Os datos como fonte xornalística
•
•
Crecemento dos datos = crecemento do seu potencial uso no ámbito do xornalismo.
Datos = oportunidade. (Moitas veces temos dúbidas sobre como abordar un tema e o que
facemos é cruzar diferentes datos, por iso máis datos danos máis oportunidades).
Contexto
•
•
•
•
Perda de credibilidade nas institucións.
Perda de credibilidade nos medios de comunicación.
Crecemento doutros actores no escenario mediático (redes sociais, influencers, etc.).
Novas voces (algunhas formadas/informadas, outras non). Aquí é onde o noso traballo
aparece unha oportunidade
Alternativas
•
•
•
•
•
•
Aproveitamento dese crecente rexistro e dispoñibilidade dos datos
Crecemento de iniciativas Open Data
Mellora das ferramentas para o traballo de datos
Crecente interese do público en proxectos de datos:
Recoñecementos
Premios
Investimento en ferramentas e equipos para o traballo cos datos
Novas narrativas deseñadas para comunicar os datos
Nota: os datos son mostras dunha realidade que existe.
10
Particularidades sobre o xornalismo de datos
Datos e xornalismo: novidoso, non novo
É tendencia, mais non é algo plenamente novo
•
•
•
O xornalismo de datos é tan antigo como a propia existencia dos datos
Antes os datos estaban publicados en libros e informes, a maior parte deles inaccesibles
Sempre se fixo xornalismo con datos só que agora eses datos son máis e temos mellores
ferramentas para tratalos
“Xornalismo aberto”
Democratización do aceso aos datos:
-
Dispoñibilidade (Open Data)
Nas ferramentas para tratalos
Neste contexto:
-
Aparición de seleccións en medios.
Medios que traballan moito cos datos abertos (ProPublica)
Nacen iniciativas cívicas (ONGs, organizacións de persoas, etc.) para buscar nos datos abertos
patróns, historias, facer denuncia, etc.
Curación/conservación de contidos
•
•
-
Nese alto volume de datos hai un alto volume de historias.
Misión dos xornalistas:
Diferenciar elementos clave
Entender a súa utilidade para a sociedade
Identificar outras fontes de utilidade para comprender esa realidade
Identificar o xeito máis eficaz de trasladar esa información
Preservar eses datos a través das historias que contamos ao empregalos
Facer accesible o inabarcable (misión do xornalismo de datos)
•
A función do xornalismo de datos é a de dotarse das ferramentas e procesos necesarios para
poder “navegar” mellor entre ese mar de datos
“80% suor, 10% gran idea, 10%resultado”
Prazos/tempos de traballo
•
•
•
•
Máis longos que no xornalismo habitual para afondar nos conxuntos de datos
Tamén hai espazo para facer xornalismo de datos máis áxil, máis sinxelo
A tecnoloxía ten un papel crucial axilizando o proceso
Conxuntos de datos máis pequenos/con menor complexidade
Resumo: Dúas maneiras de traballar:
-
tempos longos para afondar e recadar información
tempos curtos onde prima a rapidez
11
Accesible a calquera?
•
•
-
Pódese dicir que a día de hoxe case que si.
Aparición de múltiples ferramentas que facilitan o traballo cos datos nas súas diferentes fases:
Procura: gran cantidade de portais de datos de todo tipo e mesmo espazos nos que se poden
mercar conxuntos de datos.
Xestión: Microsoft Excel, Google Sheets, etc.
Visualización: Datawrapper, Flourish, Tableau, etc.
Difusión: redes sociais e publicación na web.
Escenario de competición
•
•
Centos de actores pelexando por un espazo no escenario mediático.
Necesidade de ofrecer elementos atractivos e que funcionen ben a nivel xornalístico.
A ter en conta:
-
Alto volume de información fai necesaria a aposta por determinadas narrativas
Necesidade de formular os proxectos de xornalismo de datos (bosquexos para entender o rol
de cada unha das súas partes, as decisións de deseño/presentación, etc.
En ocasións: creación de códigos/narrativas especiais.
Imposibilidade de agrupar todas as habilidades, saberes e coñecementos nunha única persoa.
Perfil do xornalista
•
•
▫
▫
▫
▫
▫
Non é necesario ser programador
Traballo en equipo:
Programación
Visualización
Deseño
Estatística
Xornalismo
Non perder o foco:
•
•
Non se trata de presentarlle á audiencia un feixe de números, cifras e gráficos, senón de
atopar, identificar e comprender a utilidade duns datos.
Claves que nunca deben desaparecer no noso traballo: Identificación- seleccióncomunicación
A historia do xornalismo de datos
Definindo o xornalismo de datos
Xornalismo de datos
Uso de datos no xornalismo para descubrir e explicar mellor ou para dar o contexto dunha historia
Nota: é importante esta dualidade de contar unha historia e enriquecer e dar contexto.
12
Orixes
•
•
•
•
Xornalismo de precisión de Philip Meyer
Fai referencia a un xornalismo que pode ser máis preciso e fiel á realidade a través do uso dos
datos (números) e ordenadores.
Inicialmente pouco éxito nas técnicas de rexistro e uso da información de xeito tan sistemático
Altos custes (persoal e tempo de traballo).
Formas de referirnos a este xornalismo:
•
•
•
Xornalismo de precisión
Xornalismo asistido por computadora
Xornalismo de investigación
Século XXI
•
-
Seguen aparecendo organizacións como a Global Investigative Hournalism Network (2003)
Xornalismo de investigación pero tamén de datos.
Expansión: deixa de ser algo propio dos Estados Unidos e comeza a propagarse por todo o
mundo
Nota: case todo comeza en EEUU e remata chegando aquí.
•
•
•
•
“Boom” con traballos como chicagocrime.org (Adrian Holovaty,2005): combinación dos datos
existentes nos rexistros públicos coa tecnoloxía e as ferramentas dispoñibles e producidas
polas grandes compañías.
Comezo do movemento Open Data: extensión de ideas como a transparencia e a rendición de
contas, e a posibilidade de axudar ao fortalecemento destas ideas a través do uso xornalístico
dos datos abertos.
Xornalismo estruturado: fórmula narrativa. É un pouco diferente ao de datos. Sérvenos por
exemplo para temas que se van desenvolvendo ao longo do tempo.
A gran particularidade á hora de encadrar algo nun termo ou outro sería ver se se trata dun
traballo no que se abordan todos os datos dunha volta (Xornalismo de datos) ou se se
organizan e categorizan para a súa exposición secuenciada (Xornalismo estruturado).
Resumo:
•
•
Xornalismo de datos: todos os datos dunha vez
Xornalismo Estruturado: unha información ten moitas fases e ímola soltando pouco a pouco
de maneira estruturada.
Exposición, presentación de
conxuntos de datos
De forma conxunta
Xornalismo de
datos
Si
Xornalismo
estruturado
Si
Si
Non
Século XXI
•
•
Mellora tecnolóxica das ferramentas para a xestión e traballo cos datos.
Expansión da visualización da información:
13
-
Aposta por este xénero nos grandes medios
Utilidade como ferramenta para o xornalismo
Impacto positivo nas audiencias
Impacto (positivo) da pandemia
Xornalismo de datos.
RESUMO
Varios nomes referidos a unha mesma materia para o xornalismo: os datos.
-
Xornalismo de precisión
Asistido por computadora
Xornalismo Investigación
Xornalismo Estruturado
Xornalismo de datos.
A pirámide invertida do xornalismo de datos (posible pregunta)
Fases:
1.
2.
3.
4.
5.
Recompilar
Limpar
Contextualizar
Combinar
Comunicar
1.
•
•
Recompilar
Dúas posibles orixes:
Unha cuestión ou problema precisa datos.
Saber que hai detras dos datos
Independentemente da orixe, o que chega a continuación é un proceso de xornalismo de
datos.
Parte máis importante do proceso. Un erro aquí arrástrase nas fases seguintes.
•
14
Onde se recompilan estes datos?
1. De forma directa (comunicados de prensa, envío das partes interesadas)
2. Mediante bases de datos ou fontes institucionais
3. Executando o baleirado de bases de datos ou páxinas web a través de ferramentas como o
web scraping.
4. Transformando documentos (de texto) a elementos que poidan ser analizado
5. Extraendo os datos das API (Application Programming Interface) doutros servizos
6. De xeito manual: observación, enquisas, formularios en liña, etc.
2. Limpar
Conversión/adaptación dos datos a unha forma de presentación que sexa consistente con outros
datos que se poidan estar empregando.
Que facemos nesta fase?
-
Eliminación de duplicados
Axuste de nomes identificacións (A Coruña ou La Coruña)
Unificación de unidades (euro - dolar)
Entradas baleiras e erradas
Homoxeinización e escolla do formato
Mistura de datos nunha mesma columna (idade e estatura na mesma celda)
Datos fóra do sitio que lles corresponde (idade na columna de estatura).
3. Contextualizar
•
Dicirlle á xente o marco onde se encadran todos estes datos.
Preguntas que nos facemos nesta fase:
•
•
•
Quen recolleu os datos (procedencia)
Cando (data)
Motivo (finalidade)
Cal é o seu significado
Permite afondar na temática, comprender as categorías que a configuran e os termos que lle
son propios.
Axuda a compilar outros datos que poidan gardar relación con ese contexto que ofrecemos.
Fase útil para ser orixinais no enfoque e ofrecer algo diferente.
4. Combinar
•
•
1 conxunto de datos = 1 historia? Posible.
1 historia = varos conxuntos de datos? Mellor.
5. Comunicar
•
De xeito individual ou combinando unha ou máis opcións: visualización, narración,
comunicación nas redes sociais, humanización, personalización, utilización.
5.1 Visualización
15
-
•
•
Xeito máis sinxelo de comunicar os resultados/produtos do xornalismo de datos.
Expansión de ferramentas gratuítas e de uso sinxelo (accesibles a calquera persoa).
Sinxeleza non é igual a efectividade. O crucial ao facer a visualización da información é non
caer na espectacularización (debemos fortalecer a idea de que se entendan os nosos datos,
non todo é que quede bonito).
Necesidade de facer materiais atractivos, si, pero que deixen claras as tendencias que existen
nos datos.
Proceso complexo que deriva dos anteriores e que axuda a reforzalos:
Facer unha boa recompilación.
Facer unha boa limpeza.
Entender como a visualización pode axudar á contextualización (precisando determinados
datos, aplicando outros, simplificando a complexidade).
Espazo para a combinación (nunha visualización pódense integrar datos de diferentes
conxuntos e presentalos de formas diferentes).
Unha máxima: menos e máis. É mellor optar polo simple para favorecer comprensión.
5.2 Narración
•
•
•
•
•
•
•
•
Tamén se pode facer xornalismo de datos en materias máis tradicionais:
Artigos.
Pezas para tv ou radio.
O texto ou a narración é tamén unha ferramenta para facer que os datos (e as historias que
hai detrás deles) sexan accesibles ao noso público.
De xeito semellante ao anterior, menos é máis. Debemos fuxir de textos excesivamente longos
e redundantes.
Moi útil para o contexto. Grazas á palabra podemos relacionar datos que a priori non son máis
que cifras.
Un exemplo: que podería significar un gasto de 100M de euros en algo? Se é en sanidade é
pouco, se é en ceas ou coches oficiais non.
Consello: falar de unidades manexables e que se poidan entender: € por persoa, veces por
día.
5.3 Comunicación nas redes sociais
•
•
-
Espazo no que o xornalismo de datos obtén un éxito notable, en parte grazas a ese proceso
de amosar elementos “espectaculares” e con alto impacto nas audiencias.
Pero non só comunicación. Estes espazos empréganse para:
Datos de uso dos seus sistemas: elaboración de pezas enfocadas nos gustos da audiencia
Publicación segundo os “temas do momento”: busca do impacto nun escenario competitivo.
As accións da audiencia como fonte xornalística: espazos de preguntas e enquisas ou
concursos á nosa audiencia.
5.4 Humanización
•
•
No xornalismo de datos é habitual dar conta de historias que poden ter (e teñen) relación co
que se vive na realidade.
Exemplo: cando falamos dos tempos de espera para unha cita médica. Eses tempos non son
algo alleo, hai persoas que teñen que pasar por eles. Nestes casos, ademais, axuda completar
a peza de xornalismo de datos co testemuño de persoas que teñen que pasar por eles (no
caso de que queiramos amosar que son máis longos do habitual)
16
•
Isto, ademais, permite que o xornalismo de datos conecte ou se aproxime máis á cidadanía.
Fai os datos menos abstractos.
Nota: detrás das cifras e etiquetas, hai persoas. A humanización axuda a conectar coa audiencia.
5.5 Personalización
-
Interatividade: unha das grandes posibilidades oportunidades para o xornalismo nos últimos
anos.
Oportunidade para o xornalismo de datos: pódese facer que a audiencia poida controlar a
información que se lles presta:
Aplicando filtros.
Con buscadores.
Nas pezas de visualización.
Experiencias únicas e individualizadas: co noso código postal pódeos identificar as tendencias
na nosa zona, por exemplo.
Nota: Que supón a súa realidade nese conxunto de datos?
5.6 Uso
•
•
•
Creación de ferramentas baseadas nos datos.
Conecta coa idea de persoalización: por exemplo, elaboramos un pequeno xogo no que
convidamos á audiencia a introducirse dentro do conxunto de datos ou ir descubrindo a
historia de forma secuenciada. Ex. ¿Qué sabes sobre Usain Bolt? (RTVE Lab, 2016).
En ocasións tamén se crean webs específicas e aplicacións baseadas en produtos xornalísticos.
Todo co obxectivo de extraer máis partido do traballo realizado (investigación e proceso de
traballo cos datos) e ganar notoriedade.
The inverted pyramid of Data journalism (complete)
Xornalistas de datos
Condicións do xornalista de datos segundo Sandra Crucianelli (2013):
-
Idiomas (sobre todo o inglés): os rexistros poden estar en moitas linguas.
Adestramento e reciclaxe permanente: novas ferramentas, novos sistemas, novos
procedementos.
Habilidades para a busca avanzada: non abonda con usar o navegador, hai que ter
indentificadas fontes e mesmo buscar onde a outros lles parece que non hai información.
Coñecementos de estatística e do uso de follas de cálculo: vitais para extraer a historia que
hai dentro dos datos.
17
-
Coñecemento da visualización da información como ferramenta de utilidade para esta
actividade.
Obxectivos: sacarlle o máximo partido aos datos, informar á poboación e lograr impacto cos nosos
proxectos.
Tema 3: Extracción das historias tras os datos
A estatística
Que entendemos por estatística?
A estatística ocúpase dos métodos científicos para recolleitar, organizar, resumir, presentar e analizar
datos para sacar conclusións e tomar decisións en base ao análise.
O termo emprégase para facer referencia aos datos ou valores asociados como poden ser os
promedios.
Murray R Spieguel, Larry J Stephens (2001). Estadística. McGra.
É unha ciencia matemática que ofrece métodos para analizar dato e regras para obtelos e sacar
resultados xerais a partir de cifras concretas.
Idoia Portilla (2004). Estadística descriptiva para comunicadores. Eunsa (p.13)
Dous terreos
Descritiva ou dedutiva
-
Descrición e análise dun grupo determinado, sen sacar conclusións ou inferencias sobre un
grupo maior
Aplicable ao conxunto concreto
Exemplos: tendencias centrais (media, mediana e moda), dispersión (cuartos, décimos,
varianza, desviación estándar).
Inferencial ou indutiva
-
Para mostras que son representativas dunha poboación
Realiza estimacións aplicables a un conxunto maior a partir dunha mostra
Estas inferencias non chegan a ser precisas por completo, polo que para a extracción de
conclusións emprégase a probabilidade
Comprobación de hipóteses previamente formuladas (si/non).
Exemplo: saber se os estudantes de xornalismo fan x. Tomamos unha mostra ampla da clase
e miramos os resultados para unha maioría.
Etapas dunha investigación estatística
-
Planificación: definición de obxectivos
Recollida de datos (estatísticos)
Tratamento e análise estatística
Presentación de resultados
18
Etapas dunha investigación estatística
1.
•
•
-
•
-
Planificación
Definición dos obxectivos da investigación
Identificación das características que queremos estudar
Non se estuda de xeito similar un conxunto de datos ao que accedemos a través dunha base
de datos que algo que precisa de crear un formulario e facerlle enquisas a un determinado
número de persoas.
Delimitar:
Poboación de interese (unidades/elementos/conxuntos a estudar)
Soporte para a investigación ou no que están os datos
Ámbito do estudo
2. Recollida de datos
Enquisa/cuestionario
-
Elaboración do cuestionario
Deseño da mostra (canta xente vou precisar para que sexa representativa)
Adestramento de entrevistadorxs
Recollida de datos
Tratamento dos datos (limpeza e corrección de erros e tratamento estatístico)
Se os datos xa foron rexistrados:
-
Identificación dos datos na fonte orixinal e noutras complementarias
Recollida de datos
Tratamento dos datos (limpeza, corrección, facer que sexan homoxéneos e equiparables)
3.
•
•
•
•
Tratamento e análise estatística
Análise descritiva dos datos obtidos (frecuencias, medidas de posición central, etc.)
Estimación de erros (da mostra e externos a ela).
Emprego de métodos estatísticos (análise multivariante, regresións).
Modelización estatística (formúlase un modelo e contrástanse as hipóteses dentro do
mesmo). Un modelo é algo semellante a un experimento, pero no campo da estatística.
Deseñamos un protocolo para “probar” algo ou se advertimos algo
4.
•
•
•
Presentación de resultados
Selección do relevante á hora de presentar
Decisións sobre o formato, o estilo e a organización dos temas
Comunicación (xornalismo)
Conceptos que debemos coñecer (importantes)
Poboación - Universo
•
•
Conxunto de elementos que posúen certas características e que son o obxecto da nosa
investigación cando empregamos a estatística.
A poboación está composta por individuos (unidades que a compoñen).
19
•
•
-
O número de individuos determina o tamaño da poboación.
Segundo o tamaño a poboación pode ser:
Finita: alumnado da clase, podemos contalo.
Infinita: número de planetas no universo. Hai demasiados que dende o punto de vista
estatístico asúmense como infinitos (os graos de arroz en china tamén sería considerado
infinita).
Observación da poboación-universo
Poboación
•
•
•
Exhaustiva ou censo. (todos e cada un dos individuos).
Parcial: (xa non estudamos a todos os individuos senón unha serie de conxuntos).
Mostra: aleatoria ou non aleatoria. (serie de individuos. A aleatoria segue normas ex. Dunha
determinada rúa, saltándose unha persoa da lista, etc.).
Subpoboación (ex. Persoas entre 15-25 anos).
Mixta (combina trazos de ambas, normalmente en fases distintas. Ex. Unha parte parcial e
logo exhaustiva).
Observación exhaustiva ou censo
-
Medición de todos os elementos da poboación
Exemplos: o catastro, o padrón, un directorio telefónico.
Observación parcial
Mostra
•
•
•
-
Subconxunto representativo de elementos da poboación.
Os datos obtidos son equiparables ao que se asume que é a tendencia no conxunto xeral (na
poboación).
Técnicas de mostraxe (para a selección da mostra):
Aleatoria: todos os elementos da poboación teñen a posibilidade de ser escollidos para a
mostra.
non aleatoria: selección conforme a uns criterios (conveniencia, dispoñibilidade, bóla de neve,
etc.).
20
Subpoboación:
•
É o conxunto de individuos que comparten unha serie de características.
Exemplo: Moz@s de 15 a 25 anos. Nesta subpoboación non entra xente de 14 nin 26 anos.
Nota: vai sempre en función dos criterios que escolla. Non sempre facemos os estudos coas mesmas
unidades de medida ou nos mesmos grupos de subpoboación.
Observación mixta
•
Combinación da observación exhaustiva e da observación parcial.
Tipos de Variables
Variables segundo o tipo de valores
Propiedades, trazos ou calidades dos elementos dunha poboación sobre os que se realiza unha
investigación.
•
-
Poden ser:
Cualitativas: atributos // Valores non cuantificables numericamente // Home/muller.
Cuantitativas: Variables // Valores cuantificables numericamente // Idade.
Tipos de variables cuantitativas
-
Variables cuantitativas discretas: toman un número finito de valores. Os decimais non teñen
sentido. Ex. Fillos por muller. Unha muller non pode ter 1,2 fillos.
Variables cuantitativas continuas: toman un número infinito de valores dentro dun intervalo.
Os decimais aquí si que teñen sentido no rexistro Ex: estatura.
Variables seguindo as escalas de medición
•
•
•
•
Variables de escala nominal
Variable de escala ordinal
Variable de intervalo
Variable de razón ou proporcional
Variables de escala nominal
•
•
•
•
•
•
-
Nominal = nome
Non numérica
Contan con categorías sen orde entre elas
Equivalentes ás variables cualitativas
Permiten a realización de táboas, gráficos e moda
Exemplos:
Sexo: home, muller
Marcas: Adidas, Nike, Puma, etc.
Cores: azul, vermello, amarelo, verde, gris, etc.
Podemos contar cantas veces está presente esta característica no conxunto e/ou facer táboas e
gráficos comparando a presenza destas variables
21
Variables de escala ordinal
•
•
•
•
•
•
-
Ordinal= orde
Non numérica
Contan con varias categorías con orde entre elas
As distancias entre as categorías non son iguais
Pódense facer táboas, medianas (50% dos datos a cada lado) e cuartos
Exemplo:
Grao de estudos: Sen escolarizar- Primaria - ESO- Bacharelato- Formación Profesional – Grao
universitario - Máster- Doutorado (Nota: é como ir subindo chanzos nunha escaleira).
A suma destas variables non ten sentido. Sumar ESO + Máster non ofrece un resultado válido.
Variables de escala de intervalo
•
•
•
•
•
-
Numérica (cuantitativa)
Intervalos entre as categorías
Orde nas categorías e diferenciadas iguais entre si
Ausencia dun punto 0 (cero absoluto). Pode haber valores negativos
Exemplo:
Temperatura: hai 0º, pero tamén 10 e menos 10. Non ten un valor cero absoluto que é que
detrás do cero non haxa datos
0 = 32F = 273,15K
Variables de escala de razón ou proporcional
•
•
•
•
-
Numérica (cuantitativa)
Existencia dun punto cero absoluto. Unha persoa con 0 meses de idade tamén ten 0 anos de
idade (pero igual non cero días).
Pódense facer todo tipo de operacións: medias, medianas, modas, etc.
Exemplo:
Idade: 1, 2, 3 anos. 10 anos, 12 meses e 20 días. Nunca poderá ter un valor negativo.
Investimento en sanidade: un investimento de 0 euros tamén o é de 0 dólares e de 0 libras.
Hora de xogar
Parámetros de interese
Razón ou cociente
•
•
-
División entre magnitudes distintas
Ex: número de coches/habitantes
6549 coches e 5694 habitantes
Dividimos os coches entre os habitantes: 1,15 coches/habitante (este é o cociente)
Índices
•
•
Evolución relativa ao longo do tempo dunha magnitude económica (prezos) dun conxunto de
bens con respecto a un período base de referencia 0
Ex: o Índice de Prezos de Consumo (IPC): valoración mensual dun conxunto de bens e servizos
(“cesta da compra”) con respecto a unha base establecida no 2016, no caso de España.
- A metodoloxía do IPC en España pode consultarse en...
22
-
Se o prezo da “cesta da compra” é de 100€ e o IPC sube un 3% quere dicir que esa
cesta da compra ten agora un valor de 103€ .
Nota: para magnitudes distintas
Taxas
•
•
•
Parte que representa algo dentro dun todo (entre iguais dentro dunha poboación)
Diferenza con respecto á razón ou cociente (nesta era unha división entre magnitudes
distintas
Exemplo: a taxa de paro é o resultado de dividir a cantidade de persoas en paro entre as
persoas activas e multiplicar por 100
Variación
•
Comparación entre os valores dunha serie en tempos distintos
Variación absoluta:
•
•
-
Diferenza entre dous valores dunha serie. Un serie de base e compárase co rexistro anterior
Exemplo: variación absoluta entre abril e maio:
Dato de maio-dato de abril= variación absoluta (en unidades)
125,6-116,4=9,2 unidades
Calcula a variación entre xaneiro e abril
Xaeneiro
256.6
Para calcular:
Febreiro
296.6
Marzo
256.7
Abril
266.8
Datos de Febreiro - Datos de Xaneiro = Variación absoluta
266.8 - 256.6 = 40 unidades (variación absoluta positiva)
Nota: primeiro vai o dato máis próximo
•
Se queremos a variación entre febreiro e marzo:
Para calcular: Datos de Marzo- datos de febreiro
256.7-296.6= -39.9 unidades (variación absoluta negativa)
Nota: podemos gañar ou perder unidades
Variación relativa
•
•
•
Comparación entre os valores dunha serie en tempos distintos
Taxa de variación relativa (%): diferenza entre dous valores dunha serie
Exemplo: taxa de variación relativa entre abril e maio:
23
(Valor de maio - valor de abril) dividido entre valor de maio e multiplicado por 100 = taxa de variación
relativa 7.32% de variación entre abril e maio
Nota: o mais recente menos o anterior dividido entre o máis recente e multiplicado por 100
Porcentaxes:
•
Números de casos que compren unha condición entre o total e multiplicado por 100
•
Exemplo: persoas con ollos azuis: collemos o número de persoas con ollos azuis, dividímolo
entre o total de persoas e multiplicamos por 100.
Calcula a porcentaxe
Idade
Grupo 1
Grupo 2
Grupo 3
Total
Grupo 1: 29/85x100
Número de persoas
29
30
26
85
Porcentaxe
34.12%
35.29%
30.59%
100%
Medidas de posición central
Media aritmética
•
•
•
Medida de posición ou tendencia central
Variables cuantitativas, de escalas de razón ou proporcionais e de intervalo (non nominais)
Exemplo: nota media do expediente
Materia
A
B
C
D
E
Nota
9.8
5.6
6
2.5
6.3
Nota+0.2
10
5.8
6.2
2.7
6.3
Cálculo
9.8+5.6+6+2.5+6.3/5 = 6.04
24
10+5.8+6.2+2.7+6.5/5 = 6.24
Nota: a media ten unha particularidade que se a todos os valores sumamos, restamos ou
multiplicamos por un valor concreto, transfórmase nesa mesma medida.
Nota: a media sempre tende aos extremos como xa dixemos (exemplo das idades do día anterior).
Mediana
•
•
•
Medida de posición ou tendencia central
Valor da variable que deixa o mesmo número de individuos por enriba e por debaixo del
unha vez organizados todos de menor a maior (ou viceversa)
Empregada en variables de escala ordinal, de intervalo e de razón. Nunca en normais.
Se se suma ou resta un valor a todos os valores de variable a mediana aumenta ou diminúe ese mesmo
valor
Se se multiplican ou dividen os valores por un valor a súa mediana multiplícase ou queda dividida por
ese valor
•
Vantaxes: non se ve tan afectada pola existencia de valores atípicos ou extremos dentro da
serie
Exemplo 1: Grupo de persoas coas seguintes idades
21 22 23 22 25
Como o número é impar é sinxelo. Só temos que ordenar os números de menor a maior e escoller o
que ocupe o punto central:
21 22 22 23 25
Exemplo 2: Grupo de persoas coas seguintes idades
O número de individuos é par. A mediana será a media dos dous que ocupan os lugares centrais
21 22 22 23 24 25 anos
22+23/2=22.5 anos
Moda
•
•
•
•
•
Medida de posición ou tendencia central.
Aplicable a todo tipo de variables.
Valor da variable que mais se repite.
Diferenzas no cálculo segundo a forma na que se nos ofrecen as variables. Non se calcula igual
para:
Datos desgarrados en táboas.
Intervalos coa mesma amplitude
Intervalos con distinta amplitude
Pode haber dúas modas (variables bimodaris) ou tres (trimodais)
25
•
No caso de variables cuantitativas, se sumamos ou restamos a todos os valores un valor, a
moda aumenta ou redúcese nese mesmo valor. Se multiplicamos ou dividimos os valores da
variable, a moda multiplícase ou divídese nese mesmo valor
Exemplo: marcas de camisetas que visten un grupo de persoas:
Persoa
Marca
A
B
C
D
E
Exemplo 2: marcas de camisetas que viste un grupo de persoas
Marca
Adidas
Nike
Puma
Fila
Pull & Bear
Adidas
Nike
Nike
Puma
Nike
Cantidade de persoas
15
18
6
8
10
Medidas de dispersión
Rango
•
•
•
•
-
Diferenza entre o maior e o menor valor da variable.
Vantaxes: sinxelo de calcular.
Desvantaxes: só ten en conta dous valores da serie e influencia dos valores extremos (moi
grandes ou moi pequenos).
Exemplo: idade das persoas que pertencen a un grupo de teatro
Maior: 65 anos
Menor: 23 anos
Rango: 65 – 23 = 42 anos
Cálculo do rango
65, 66, 32, 25, 15, 29, 9, 66, 48, 12, 14, 16
65, 66, 32, 25, 15, 29, 9, 66, 48, 12, 14, 16
66 – 9 = 57
26
TEMA 4: A visualización de datos
Home de Viturbio - Leonardo Da Vinci
•
•
Representación das proporcións descritas polo arquitecto.
É unha representación visual dos datos
Mapa do metro de Londres Harrry Beck, 1933
Importante
•
•
Uso de “visualización da información” e de “visualización da datos” de xeito indistinto
Identificación, ás veces, con “infografía”.
Área en expansión
Falamos un anaco sobre o escenario actual
-
É difícil conseguir información hoxe?
Recibimos máis información ou menos que hai uns anos?
Por onde vos chega a información?
Tedes a sensación de saturación sobre algún tema ou nalgún momento?
Lembrades todo o que vedes?
A visualización da información/datos
Unha visualización é calquera representación visual da información deseñada para permitir a
comunicación, a análise, a descuberta, a exploración, etc.
Alberto Cairo (2016, p28)
A visualización da información é máis que a representación visual de datos. É máis ben o proceso de
disección dos datos en bruto que por si sós teñen escaso significado para presentalos dun xeito no
que deixan de ser complexos.
Ana Figueiras (2014)
Transformación da información en imaxes que facilitan a extracción de significado.
Ignasi Alcalde (2015)
Nota: pasamos de números complexos que non nos din nada, a unha imaxe que podemos interpretar.
Particularidades da área da visualización
Área difusa (Ignasi Alcalde, 2015)
•
•
Historicamente difusa porque non queda claro se é xornalismo, arte, ciencia de datos,
comunicación, deseño, etc.
A resposta é que é un pouco de todo.
Aproveita circunstancias como:
•
A construción do noso cerebro e a existencia dunha parte destiñada ao procesamento de
información visual.
27
•
•
Preferencia humana polos formatos eficientes, atractivos e entretidos (Lankow, Ritchie e
Crooks, 2013, p.42).
Potencial para axudar ás persoas a atopar información que precisan de xeito máis efectivo
(Chaomei Chen, 2006, p.34).
Contexto no que se expande o uso da visualización
•
•
•
•
•
Aparición e fortalecemento do Big Data.
Aparición e fortalecemento do Open Data.
Rexistro constante de análises (datos) sobre calquera temática.
Necesidade de instrumentos que permitan interpretar e comunicar todo aquilo que
implican eses datos masivos.
Aparición de ferramentas e tecnoloxías que facilitan a produción de gráficos, mapas e outros
materiais de visualización.
De datos a coñecemento
Continuum of understanding
Proceso no que os datos pasan por 4 fases: de atoparse en bruto ata ser comprendidos polo ser
humano- Nathan Shedroff (1999).
1. Data (Datos)
Entidades que carecen de sentido por si soas. Números tomados de xeito singular que carecen de
utilidade para o publico xeral se os tomamos de xeito illado.
2. Information (Información)
• Consecuencia da transformación e organización dos datos.
• Recollida e presentación dos datos en bruto dun xeito comprensible e acompañados do seu
contexto.
3. Knowledge (Coñecemento)
• Súmase aos dous anteriores a experiencia previa adquirida.
• O coñecemento é consecuencia das experiencias anteriores vividas pola persoa que, ao
observar un traballo de visualización, fan o exercicio da ligalo a algo visto ou coñecido con
anterioridade.
28
4. Wisdom (Sabedoría)
• Etapa máis alta do proceso de coñecemento.
• Establecemento de relacións e xuízos sobre os datos dos que parte unha visualización.
Proposta de Alberto Cairo (2011)
Información desestruturada: Realidade ou mundo que nos rodea con todas aquelas ideas e
fenómenos susceptibles de ser observados.
Datos: rexistro da observación da información desestruturada, realizado a través de símbolos
empregados para describir a realidade á que se fai referencia. Primeiro nivel de codificación.
Información estruturada: Segundo nivel de codificación. Presentación dos rexistros de forma que
sexan comprensibles. Necesario para que unha serie de datos poda ser entendida.
Coñecemento: Aumento de coñecemento a través de procesos de asimilación e comparación con
experiencias previas por consumo de información estruturada.
Sabedoría: Coñecemento profundo. Non todo o coñecemento acaba converténdose en sabedoría, do
mesmo xeito que non toda a información chega a ser coñecemento.
Beneficios da visualización
Tres beneficios da visualización (Ignasi Alcalde, 2015)
1. Evita o exceso de información
- Ferramenta útil para combater o exceso de información que existe no momento actual. Ás
veces identifícase a cantidade de información dispoñible con claridade ou coñecemento.
- O máis importante neste contexto é recibir información relevante e de calidade
- Visualización de datos: filtrado e foco no máis relevante
- Permite lembrar o importante.
2. Facilita a comprensión
• Mellora a socialización do contido.
• Evita o exceso de información
• Facilita a comprensión
- Os humanos somos seres visuais.
- Interpretamos a linguaxe visual de xeito máis rápido que a escrita.
- Recordo de arredor do 20% do que lemos (escasa retención da información escrita).
- Maior recordo daquilo que foi visto.
3. Mellora a socialización do contido.
- Mundo hiperconectado
- Múltiples impactos
- Contidos atractivos, sendo sinxelos de consultar
- Visualización como elemento de reclamo
29
A natureza dos datos
Datos e tarefas
Ben Shneiderman* (1996) caracteriza o traballo coa visualización da información dende dúas ópticas:
1. Tipos de datos que fan posible o traballo.
2. Tarefas de navegación ou recuperación da información.
*Investigador no eido da informática.
As dúas preguntas de Berinato
•
•
Trátase dunha información conceptual ou baseada en datos?
A miña intención é narrar ou explorar algo?
Usabilidade e percepción
Enfrontarnos á dificultade da narración
•
•
•
Substrato espacial: Aproveitamento do espazo dispoñible en dúas dimensións (X e Y), pero
tamén en tres dimensións (contidos hiperdimensionais).
Elementos gráficos: unidades situadas sobre o substrato espacial (puntos, liñas, volume e
superficie...). Á hora de producir: selección e combinación segundo a súa pertinencia.
Propiedades gráficas: conexión coa percepción dos usuarios e a capacidade do seu ollo para
a recepción do percibido co coñecemento adquirido. As máis frecuentes: tamaño, orientación,
cor, textura e forma.
Usabilidade
“A medida na que un produto pode ser usado por usuarios específicos para acadar obxectivos
especificados con eficacia, eficiencia e satisfacción nun determinado contexto de uso”
•
•
•
•
•
•
•
Aínda que a ISO abre ese concepto a calquera campo, no ámbito informática adoita aplicarse
ao software, as aplicacións dos móbiles, videoxogos, etc.
En definitiva, facer a experiencia do usuario máis sinxela.
Idea detrás do concepto da usabilidade: como de complicado vai ser que os usuarios aprendan
a usar ou entendan o meu produto?
User-centered design: deseño centrado nos usuarios. Cada vez facemos os contidos máis
axeitado ao noso público (coñecemento e dominio das plataformas, das linguaxes, das
tecnoloxías, etc.). O usuario como centro do proceso de deseño.
Como se consegue? Varios métodos:
Investigación cualitativa e cuantitativa dos nosos usuarios (reais ou potenciais)
Test: proba dos produtos e observación do seu funcionamento e comportamento do usuario
30
Percepción - principios
Vinculados á psicoloxía, fan referencia ao proceso humano de identificar patróns ou relacións entre
elementos:
-
Proximidade
Similaridade
Conexión
Continuidade
Simetría
Clausura/ lei de peche
Tamaño relativo
Agrupación dos elementos segundo a dirección
Simplicidade
Familiaridade
Estes principios e algúns outros temos que telos en conta cando elaboramos traballos de infografía ou
visualización de datos
Alfabetización visual
“Refírese a competencias visuais que unha persoa pode desenvolver ao ver e ao mesmo tempo ter e
integrar outras experiencias sensoriais”
“O desenvolvemento de ditas competencias é fundamental. Permiten a unha persoa discriminar e
interpretar acción, obxectos, símbolos, etc.”
31
TEMA 5: Automatización e datos
Intelixencia artificial e xornalismo
Xornalismo: Área en permanente transformación
•
•
•
Simplificación das tarefas
Mellora de procesos
Redución de custes
Cambios que levan a...
•
•
•
Big Data
Creación de novos formatos (Realidade Virtual e Aumentada, Visualización de datos, formatos
interactivos e multimedia)
Transformación das rutinas e procesos de traballo
Unha das transformacións máis destacadas nos últimos anos
•
Aplicación da Intelixencia Artificial (IA)
“Facer máquinas intelixentes que fagan procesos non mecánicos ou repetitivos, que teñan certa
conciencia e aspiren a mellorar ditos procesos. Buscamos ese paralelismo de usar ordenadores para
imitar a intelixencia humana. Non se fía todo a que sexan cousas que teñan un corpo físico, senón que
é algo informático (tampouco mecánico)” John MCarthy.
A chegada da automatización
•
•
•
-
Aposta pola innovación
Crise económica: a aplicación de ferramentas como a IA ven da man de pensar que nos poden
axudar a reducir os custes.
Dixitalización:
Sociedade cada vez máis dixital.
Aposta pola conexión coas audiencias.
Varios nomes para esta realidade
-
Xornalismo robotizado
Xornalismo algorítmico
Xornalismo automatizado
Xornalismo computacional
Xornalismo aumentado
Xornalismo artificial
Xornalismo de alta tecnoloxía
Potencial da aplicación da automatización no xornalismo
-
Xeración de noticias de xeito máis rápido, a maior escala e menor cantidade de erros
Os algoritmos poden empregar os mesmos datos para elaborar historias en múltiples linguas
e dende diferentes ópticas, personalizando estes contidos
Os algoritmos teñen o potencial de xerar noticias baixo demanda
Andreas Graefe (2016)
32
Nota: a personalización provoca que nos metan nun túnel, cerrando o noso ángulo de visión. Isto é
algo moi perigoso para a pluralidade e fomenta a aparición de extremismos. O xornalismo non deixa
de ser confrontar ideas, non podemos abusar da personalización.
Os inicios da automatización
ELIZA (1996): Primeiro chatbot que parte dun experimento sobre a linguaze natural.
Comezos da automatización no xornalismo
Quakebot
-
Los Angeles Times 2014
Primeiro bot xornalístico
Algoritmo que monotoriza bases do instituto xeolóxico para atopar terremotos
Xornalismo automatizado, opcións
•
•
•
•
Busca a extracción de datos dunha base de datos para encher espazos mediante unha plantilla
definida
Análise dos datos buscando conexións para producir novas narrativas máis elaboradas
Capacidade de facelo en segundos
Importancia no xornalismo local
A xeración de noticias mediante algoritmos
1.
2.
3.
4.
5.
-
Recolección de datos
Fontes predefinidas / minaría de datos
Creación de datos
Identificación de mensaxes
Análise estática
Regras predefinidas
Xerarquización
Pertinencia informativa / Noticiabilidade
Aplicación de regras predefinidas
Xeración da narrativa
Construción do relato seguindo un formato e normas
Aplicación do estilo (cores, expresións, etc.)
Publicación
Difusión a través do medio
Publicación automática / tras revisión editorial (humana)
Escenario non exento de debate. Algunhas cuestións
1.
2.
3.
-
Para os xornalistas
Redución da carga de traballo
Perda de postos humanos
Para as audiencias
Calidade insuficiente
Necesidade de transparencia para os contidos personalizados
Para os medios de comunicación
Fontes: ter dereito bos datos cos que se traballa
Procesamento: revisión de erros do algoritmo
33
4.
-
Vixilancia: necesidade de mecanismos de control ou filtrado
Para a sociedade
Sobreinformación
Personalización leva ao consumo de noticias homoxéneas
Filtro burbulla: illamento froito do anterior
Exemplos de uso da Intelixencia Artificial
En diversos ámbitos
•
•
•
•
•
•
Axilizar os fluxos de traballo. Ex. BBC Juicer.
Automatización de tarefas
Máis datos a maior velocidade
Correlación entre informacións. Procura de contidos relacionados de forma automática.
Loita contra as noticias falsas. Emprego da IA para a detección de patróns de palabras que
poden sinalar unha historia como falsa.
Xeración de resultados en forma de informes e historias que se elaboran a partires de datos
en bruto. (créase unha plantilla e xéranse contidos en forma de historias)
Análise de tendencias: NewsWhip
Uso da IA para coñecer de que se fala en cada momento. Espazos como redes sociais onde se fai tarefa
de filtrado. Unha especie de foros abertos.
Sophi – The Globe and Media
Coloca os contidos na páxina do medio arredor da conversa que se xera dun tema ou doutro.
•
•
•
•
Toma decisións obre o contido
Detecta contidos existosos
Coordinación con espazos como Facebook
Crecemento da efectividade
Empresas especializadas na creación de ferramentas dixitais vinculadas ao xornalismo e creación de
noticias baseadas na IA: United Robot
Proxecto SALCO-BBC
-
Algoritmos para o tratamento de información local
Mestura do traballo clásico con “algo de automatización”
A Minaría de Datos (Data Mining)
Análise de grandes conxuntos na que buscamos relacións que a priori parecen inexistentes e que
empregamos para facer un especie de resumo ou panorámica da información, de xeito comprensible
e útil. É dicir, procuramos as relacións entre os datos e delas extraemos cousas que sexan útiles e
interesantes.
Proceso no que se usan diferentes ferramentas para a análise dos datos para descubrir patróns e
relacións nos datos, de xeito que poidan ser empregadas para realizar predicións válidas- Herbert A
Edelstein (1999).
34
Por que e útil a minaría de datos?
-
Moitos datos novos cada día
Diferenciar información importante da supérflua (chegar á información útil e relevante)
Extracción de coñecemento dos datos masivos
Capacidade de mmoverse neses conxuntos de datos
Algunhas tarefas comúns na minaría de datos
1. Clasificación de datos dentro dunha categoría predefinida
2. Regresión: correspondencia dun dato cun valor rea dunha variable. Ex. Tendo estes datos, cal
é o desenvolvemento futuro desa variable?
3. Clustering: agrupación de rexistros en observacións, casos ou obxectos similares.
4. Xeración de regras: relacións e asociacións entre os datos. Ex. Canto ten que ter este valor
para que sexa superior ao do ano anterior.
5. Resumo ou sumarización: descrición compacta dos datos. Ex cales son as características das
persoas que asisten a concertos
6. Análise de consecuencias: estudo dos patróns ao longo do tempo e información da desviación
destas tendencias.
José C Riquelme, Roberto Ruiz, Karina Gilbert (2006)
Protocolos para a xestión de datos
Data Warehouse, Data Lake e Data Hub
-
Solucións de almacenaxe
Óptica das institucións que os xestionan (públicas/privadas)
Importancia en grandes proxectos de Big Data
Data Warehouse
-
Sistema empregado para almacenamento a longo prazo.
Warehouse = Almacenaxe
Sistema empregado para os informes e análise de datos
Almacéns centrais que integran todos os datos, aínda que poden proceder de diferentes
fontes
Emprego máis frecuente como punto final que como punto do paso dos datos
Data lake
-
Lago de datos que se atopan en “auga”, en bruto
Datos no seu estado natural
Almacenaxe onde se inclúe unha gran cantidade de información de todo tipo, tanto
estruturada como non
Nos sistemas de Data Lake non se pode coñecer ou definir a estrutura dos datos ata que non
se xera esa necesidade e procedemos a facelo
Nos sistemas de data lake poden procesarse os datos e envialos qa un sistema de almacenaxe
data warehause
35
Data hub
-
Centro de datos
Integración de todos os datos nun mesmo punto, aínda que coa caop de moberse e ordenarse
de novo nun sistema distinto
Permite que estes datos se ordenen, analicen e descubran
Enfoque que busca organizar os datos de xeito máis eficaz. O punto final (xa sexan apps,
procesos, persoas, algoritmos, etc. )interactúa con este centro para proporcionarllle datos ou
recibilos del.
TEMA 6: Marco legal e ético no traballo con datos
Transparencia e acceso á información
Transparencia
“La transparencia, el acceso a la información pública y las normas de buen gobierno deben ser los
ejes fundamentales de toda acción política. Sólo cuando la acción de los responsables públicos se
somete a escrutinio, cuando los ciudadanos pueden conocer cómo se toman las decisiones que les
afectan, cómo se manejan los fondos públicos o bajo qué criterios actúan nuestras instituciones
podremos hablar del inicio de un proceso en el que los poderes públicos comienzan a responder a una
sociedad que es crítica, exigente y que demanda participación de los poderes públicos”
Lei 9/2013, do 9 de decembro, de transparencia, acceso á información pública e bo goberno
Rómpese co modelo anterior
•
•
•
Audiencia activa que deixa de ser un mero receptor de contidos
Cuestiónase o rol da prensa como “cuarto poder” ou garante da liberdade de expresión
Escrutinio constante e público da labor dos medios de comunicación.
Xornalismo transparente
3 obxectivos (Eva Campos-Domínguez e Marta Redondo-García 2015):
•
•
•
Presentación da forma de traballar dos medios de comunicación
Formulación de contidos reutilizables
Aproveitamento do capital social das audiencias (prosumidores) para que colaboren no
proceso informativo.
*Prosumidor: evolución do concepto “consumidor”. Non só consume a información, senón que a
produce (a través da conversa cos medios)
•
•
-
Aparición de iniciativas de verificación e colaboración entre medios de comunicación nesta
tarefa. Ex. International Fact-Checking Network
Aparición de medios de comunicación especializados no escrutinio das institucións e na busca
da transparencia.
ProPublica (2007)
Fundación Civio (2012). Ex: Orzamentos de 2023.
36
Riscos do traballo con datos
Algúns riscos e aspectos a ter en conta no traballo cos datos
•
•
•
O uso de Big Data cambia a definición do coñecemento, ao acceder a partes e presentacións
da realidade non vistas ata o momento (Boyd e Crawford, 2012).
Risco de ver patróns ou conexións en sucesos aleatorios ou datos cuxa conexión non ten
sentido (Leinweber, 2007). Que semelle que hai relación ou que dous indicadores se movan
de xeito parello non quere dicir que esa relación exista.
Acceso sinxelo pero, ético e legal? Por exemplo, traballar da man de Google ou Meta fai que
teñamos acceso a moitos datos que fan referencia a comportamentos das persoas
(Mannovich, 2001).
O Open Data
Datos abertos
“Los datos abiertos son datos que pueden ser utilizados, reutilizados y distribuidos libremente por
cualquier persona, y que se encuentran sujetos, cuando más, al requerimiento de atribución y de
compartirse de la misma manera en que aparecen”
AAVV (s/f). The Open Data Handbook
Tres características dos datos abertos
•
•
•
Dispoñibilidade e acceso: a información debe estar dispoñible como un todo e a un custe
razoable de reprodución.
Reutilización e redistribución: os datos deben ser provistos baixo termos que permitan
reutilizalos, redistribuílos e integralos noutros conxuntos de datos.
Participación universal: Non debe existir discriminación nin restricións relativas a certos
propósitos (por exemplo, só para a economía).
Concepto da interoperabilidade
•
•
•
•
•
Traballo conxunto entre os diferentes compoñentes.
Idea de que un material aberto poida ser mesturado con outro material.
Combinación de conxuntos de datos para explicar ou traballar a realidade.
Obxectivo: evitar a Torre de Babel, ter moitos conxuntos de datos pero sen a posibilidade de
combinalos en sistemas maiores.
Nesa combinación é onde está o verdadeiro valor, a verdadeira utilidade.
O Open Data como recurso
•
•
•
•
•
•
Xeralmente promovidos polos gobernos ou as institucións públicas.
Áreas nas que se pode xerar valor a través do Open Data:
Transparencia e control democrático.
Participación.
Autoempoderamento.
Mellora ou creación de novos produtos ou servizos.
37
•
•
•
•
Innovación.
Mellora na eficacia dos servizos ofrecidos polo goberno.
Medición do impacto real das políticas adoptadas.
Xeración de coñecementos a partires de fontes de datos combinadas e patróns en grandes
volumes de datos.
O fluxo do Open Data
38
TEMA 7: Xornalistas e datos
Lembramos, contexto do xornalismo de datos
•
•
•
▫
▫
▫
•
•
•
Orixe ano “Xornalismo de precisión” (Philiph Meyer)
Evolución progresiva a partires da integración de novas tecnoloxías nas redaccións
Boom no s.XXI
Crecemento das bases de datos públicas e privadas
Mellora de ferramentas para a xestión e presentación dos datos
Fortalecemento das redes de cooperación entre medios e xornalistas
Extracción dunha interpretación cuantitativa a realidades cualitativas
Emprego da IA
Crecente interese dos medios
Xornalistas de datos
Condicións que debe reunir o xornalista de datos segundo Sandra Crucianelli (2013):
•
•
•
•
•
Idiomas
Adestramento e reciclaxe permanente: novas ferramentas, novos sistemas e novos
procedementos.
Habilidades para a busca avanzada: non abonda con usar o navegador, hai que ter
identificadas as fontes e mesmo buscar onde parece que non hai información.
Coñecemento de estatística e do uso de follas de cálculo: extraer historia dos datos
Coñecemento da visualización da información como ferramenta de utilidade
Xornalistas de datos
•
•
•
É preciso anotar que as orixes do xornalismo de datos chegan, de forma xeral, a a partires da
colaboración entre varias persoas con distinto perfil
Nós como xornalistas temos que coñecer que é o que nos pode aportar cada persoa que pode
entrar a formar parte dese equipo e empregar de xeito máis eficiente as pezas que temos á
nosa disposición
Obxectivos: sacarlle o máximo partido aos dato,, informar á poboación e lograr impacto cos
nosos proxectos.
Xornalistas de datos - definición
•
•
Persoas expertas en buscar, xerarquizar e filtrar información dentro da enorme cantidade de
datos dispoñibles na rede.
Pero non debe perderse o básico da nosa profesión: contar historias, narrar información.
As necesidades para o xornalismo de datos
•
•
•
•
Coñecemento en navegación especializada en grandes bases de datos
Tratamento dos datos mediante software
Visualización de datos
Coñecementos propios de xornalismo noutros ámbitos
(Arias, Sánchez García e Redondo, 2018)
39
Competencias especificas
•
•
•
•
•
Compilación, limpeza, contexto e comunicación dos datos
Busca e cribado de bases de datos en liña
Coñecementos de metodoloxía e estatística
Combinación de fontes e datos da web- mashup-.
Visualización e comunicación a través de mapas, cadros, infografías ou animación
Procesos e ferramentas particulares
•
•
•
•
•
GRAN presenza das fontes públicas e oficiais
Portais de transparencia
Petición de datos
Xestión de datos: Excel, R, OpenRefine
Visualización de datos: Datawrapper, tableau, Flourish, CartoDB, D3.js.
Que se precisa neste traballo?
Se facemos un proceso complexo e rico pero non conseguimos trasladar os nosos resultados á
poboación, non nos serve de nada.
1.
-
Habilidades técnicas
Traballo con follas de cálculo
Programación en Phynthon e R
Uso de librarías como ggplot (paquete de visualización de datos)
Xestións de bases de datos e da linguaxe SQL (Structuresd Query Language) para consultar as
mesmas
Coñecementos estatísticos
Manexo da busca en internet
Capacidade para o scrapping, a construción de conxunto de datos e a súa limpeza e análise.
2.
-
Coñecementos sobre os datos
Habilidade para a petición de datos e coñecementos sobre os datos abertos
Coñecementos sobre as fontes de datos
Capacidade de comprender metadatos
Capacidade para verificación
Procura da fonte orixinal
Comprobación da veracidade e confiabilidade dos datos noutras fontes
Aplicación de técnicas das ciencias sociais (enquisas, entrevistas, etc.)
3.
-
Desempeño do traballo e interaccións con outros
Consulta con persoas do ámbito da estatística
Relación cos organizacións para peticións de datos
Explicación de procesos a compañeirxs de profesión
Colaboración con xornalistas non especializados no xornalismo de datos
Colaboración con xornalistas de datos do propio medio
Colaboración con outras áreas da redacción como a de visualización ou a de programación
Establecemento de redes con xornalistas de datos doutros medios
40
4. Toma de decisións e resolución de problemas
- Xulgar a fiabilidade dos datos.
- Xulgar a noticiabilidade dos conxuntos de datos e das historias que se poden elaborar con
eles.
- Capacidade para liderar e coordinar proxectos.
- Realización de comprobacións para garantir a exactitude das historias baseadas en datos
- Buscar historias nos datos para darlles voz humana.
- Atopar o balance entre historias individuais e a fotografía ou a panorámica xeral.
- Establecer xuízos sobre a pertinencia dos datos, facéndolle entender á dirección do medio a
posibilidade de producir esta historia e a dispoñibilidade dos datos.
41
Descargar