Umanizzare i dati. Intervista a Donata Columbro
Dietro a ogni dato, dal più semplice al più complesso, c'è una storia. Una storia tutta umana: per questo raccontare i dati è indispensabile per umanizzarli, svelandone così le implicazioni e rendendoli più democratici. Tra best practice di data journalism e lotta ai data bias, ne abbiamo parlato con la data journalist e data humanizer Donata Columbro.
Secondo uno studio del World Economic Forum, nel 2021 oltre il 90% dei dati mondiali era stato generato nei precedenti due anni. Questa percentuale ci racconta della crescita vertiginosa dei dati a nostra disposizione, e della centralità della raccolta e l’analisi dei dati in ogni settore della società. I dati, ormai, sono ovunque; e qualunque nostra azione produce dati. Questi dati sono alla base di decisioni cruciali per la vita pubblica e individuale e sono utilizzati quotidianamente per lo sviluppo di algoritmi e intelligenze artificiali che hanno un ruolo sempre più determinante nelle operazioni di aziende e istituzioni. Per questo è così importante saperci porre le domande giuste sul loro significato e sui processi che portano alla loro produzione.
L'importanza del data journalism, allora, risiede nella sua capacità di trasformare grandi quantità di dati, spesso complessi e difficili da comprendere, in storie chiare, precise e facilmente comprensibili per il grande pubblico. Questo non solo aumenta la trasparenza e la consapevolezza su temi di rilevanza sociale, ma permette anche di smascherare fake news e fornire una narrazione basata su fatti concreti, seppur consapevole della propria parzialità. Permette, insomma, di esercitare una cittadinanza attiva.
Ne abbiamo parlato con Donata Columbro, data humanizer, giornalista, scrittrice e formatrice.
Lei è stata definita una data humanizer. Ce ne può dare una definizione? Perché è così urgente, oggi, umanizzare i dati?
Il mio lavoro consiste nel divulgare i dati e il mondo che gira intorno a quei dati, questioni di statistica e di data science in modo comprensibile. Qualcosa di tutt’altro che scontato perché storicamente questi ambiti sono stati riservati agli addetti ai lavori e i discorsi intorno a essi sono stati costruiti con un linguaggio tecnico e di nicchia. Il mio sforzo è invece quello di rendere i dati e la statistica di più facile accessibilità per tutti e tutte, anche in relazione ad aspetti più pratici e quotidiani, sottolineando come questi dati siano legati proprio alle vite delle persone, e abbiano un impatto concreto su di esse. Anche in contrasto con l’ideologia dei big data, che attraverso estrapolazioni meccaniche e tecnologiche pretende di schematizzare la realtà, di ridurla in pattern per predire il futuro. Ma questo tipo di predizioni non sono neutrali, bensì svolgono un’azione normativa.
Ciò che mi preme raccontare, in quanto giornalista, è il fatto che dietro dati, statistiche, indici ci siano molte mani umane: decisioni prese, errori commessi, ripensamenti. Tutto è così umano, eppure spesso questo aspetto non viene preso sufficientemente in considerazione.
I dati, quindi, sono già umani.
Tutto è frutto di una scelta, e pensare di raggiungere un reale standard di obiettività e oggettività è illusorio. Non solo: è fuorviante. Negare il contesto parziale e soggettivo in cui vengono raccolti i dati, infatti, ci impedisce di spiegare davvero come si produca un certo fenomeno. La chiave è invece nei meta-data, che devono essere il più dettagliati possibile al fine di mostrare come tutto ciò che i dati raccontano sia parziale, una parte di realtà osservata da uno specifico punto di vista, con limiti e potenzialità. Può suonare limitante, ma in realtà è una grande possibilità di fare emergere il nostro punto di vista. Voglio raccontare un aneddoto. Sono stata a Ferrara al Festival di Internazionale, per un workshop sul giornalismo dei dati e sono rimasta sorpresa da quanto chiaramente inizi a emergere tra le persone il problema che i dati non possono rispondere a tutte le domande, ma che siano appunto una rappresentazione parziale della realtà, la rappresentazione di un punto di vista; perché sono relativi alle domande e al contesto in cui ci troviamo, alle esigenze e agli interessi che abbiamo a ciò che cerchiamo ma anche agli strumenti che abbiamo e che ci permettono di considerare alcune cose piuttosto che altre. Pensiamo solitamente al dato come a qualcosa di più asciutto e pulito delle parole, ma non è così.
I dati che raccogliamo, dunque, dipendono dal nostro punto di osservazione, da cosa cerchiamo, dagli strumenti che adoperiamo, dal nostro metodo di raccolta e analisi. Ci vuole parlare del suo metodo? E soprattutto, poiché capita spesso che più studi sul medesimo fenomeno entrino in contraddizione, o che una ricerca dati sia inattendibile, come effettua le sue verifiche per raccontare attraverso i dati una storia corretta e credibile?
La data journalist Cristina Da Rold dice che lo strumento più importante per chi fa questo tipo di giornalismo è il telefono: comunicare con le persone, telefonare e chiedere conferme, risalire alla fonte. I dataset, i grafici, non parlano da soli! Quando analizzo un dato, un grafico, una statistica io chiamo la persona che lo ha realizzato e chiedo di spiegarmi le incongruenze. Un caso di incongruenza recente, per esempio, riguarda il fatto che, in Italia, 4 regioni non hanno registrato il 100% delle risposte - ma meno del 40% - nelle indagini sui centri antiviolenza. Il dato è evidentemente parziale e per procedere con qualsiasi tipo di interpretazione devo capire cosa ha determinato queste criticità nel processo di raccolta: sarà allora fondamentale contattare l’ente che ha elaborato i dati, oppure una persona esperta nel campo da cui è stato preso il dato (medico, sociologico ecc…), per ottenere una spiegazione. Perché dobbiamo sempre tenere presente che i dati non sono tutti uguali e servono competenze settoriali specifiche per lavorarci: se non ho una conoscenza adeguata di un tema non ho nemmeno gli strumenti per comprendere la significatività e il contesto di un dato statistico, quali sono le incongruenze e le mancanze.
Competenze e conoscenze. Lei affianca al lavoro di data journalist quello di formatrice: da questo punto di osservazione particolare, quale le sembra essere lo stato dell’arte in Italia?
C’è tanto lavoro da fare ma percepisco anche molto interesse nell’affrontare il tema con un approccio diverso. Ciò che più spesso mi viene richiesto da formatrice è il far capire all’azienda quali sono i dati rilevanti e come approcciarsi ad essi; far capire in maniera naturale e “divertente” a tutti, non solo ai tecnici del settore, come leggere i dati.
La cosa che noto, soprattutto grazie alla crescente diffusione di testi divulgativi, è un sempre maggiore interesse per le competenze relative al mondo dei dati ben al di là della semplice esigenza di aggiungere una voce al curriculum. Mi pare sempre più diffusa, invece, la consapevolezza della centralità di queste competenze in quanto cittadini e cittadine, non solo come lavoratori e lavoratrici. Alle persone è sempre più chiaro che saper leggere i dati vuol dire sapere come leggere le notizie. Infine, c’è ormai grande interesse per il mondo dei dati da parte di chi fa attivismo: sanno che i dati possono essere uno strumento indispensabile per portare avanti azioni concrete e avere maggiore credibilità.
Ora vorrei invece sollecitarla sul tema dei bias, ovvero quei pregiudizi tutti umani che si ripercuotono nel modo in cui programmiamo gli algoritmi o rappresentiamo e raccontiamo i dati. Come affronti il tema nel tuo lavoro di intellettuale e formatrice, e come invece agisci quando sei tu a dovere rappresentare dei dati?
Riguardo ai bias, ciò che più mi interessa è il percorso umano che porta alla creazione dei dataset applicati poi dalle macchine. Perché molto spesso ci si sofferma sulle responsabilità di chi programma, ma non c’è solo il bias della persona che scrive il codice, che disegna l’algoritmo: forme di bias sono presenti in tutti i nodi della catena del dato. Del resto un algoritmo non è per forza disegnato da un programmatore; il programmatore talvolta implementa qualcosa di scritto da un’altra figura, magari da chi fa filosofia. Di chi è dunque la responsabilità? Tutto sta insomma nel processo, nella storia di quell’algoritmo: perché se il dato di partenza è stato costruito includendo tutti gli elementi discriminatori e parziali che riguardano un certo contesto in un certo periodo storico, passato o presente, sicuramente l’output conterrà quegli stessi bias e li riprodurrà nei compiti che gli vengono assegnati. Si innesca una circolarità: per esempio, nelle pubblicità, se immaginiamo quelle che parlano di famiglia. Se un certo tipo di rappresentazione tradizionale, parziale e non inclusiva viene utilizzata acriticamente per alimentare i dataset, che vengono poi utilizzati dalle intelligenze artificiali generative, queste intelligenze artificiali continueranno a produrre immagini stereotipate. Il problema sta tutto nel riconoscere quali siano i bias e introdurre dei correttivi: dovrebbe essere in grado di farlo chi si occupa degli aspetti tecnici, ma anche chi compie una valutazione expost dovrebbe controllare ciò che succede. La responsabilità è diffusa: il modo in cui noi costruiamo la nostra società e il nostro immaginario, i testi, i film, tutte le rappresentazioni che produciamo sono traducibili in dati che potenzialmente possono alimentare gli algoritmi. Se ciò che produciamo è biased, anche i risultati delle macchine lo saranno.
Quanto conta invece il background culturale, sociale, economico, geografico del pubblico destinatario di una rappresentazione di dati? In che modo si può creare una rappresentazione veritiera che tenga conto di queste specificità, senza rafforzare eventuali bias?
Prendere in considerazione pubblico e contesto è una delle regole che mi do, e che insegno. Non si può pensare di presentare un prodotto comunicativo a chiunque senza tenere conto della sua storia. Quando si comunicano dei dati, è importante domandarsi cosa sa un pubblico rispetto a questi dati, quali siano i preconcetti, ma anche qual è l’impatto che voglio avere. Non posso dare per scontato che le persone conoscano concetti di statistica, né che una particolare analisi assuma il medesimo significato per chiunque. Trovo molto utile il trend di creare grafici sempre più didascalici, aggiungendo sempre più testo nella descrizione. Su questo batte molto chi si occupa di accessibilità, perché uno screen-reader legge più facilmente il testo relativo ad un grafico che lo stesso grafico. Anche questo vuol dire umanizzare il dato. Possiamo allora immaginare di inserire del testo che descrive sia il grafico oggettivamente che il grafico in relazione al contesto in cui ci si trova. Ciò può aiutare anche a capire il motivo di una scelta di rappresentazione di un dato e un grafico piuttosto che un altro.
Questa prospettiva sull’accessibilità mi sembra fondamentale, perché se da una parte i dati sono sempre sembrati qualcosa di estremamente tecnico e asettico, dall’altra vediamo come vengano sempre utilizzati a fini retorici e politici, perché il dato ha questo potere di ammantare di autorevolezza e competenza chi lo usa. Il dato, insomma, è immediatamente politico. Avere competenze sui dati è quindi uno strumento di cittadinanza attiva?
Il numero ha questa capacità di sembrare “oggettivo” ed è quindi perfetto per giustificare e trincerare le proprie posizioni, sulla base dei numeri e delle statistiche, senza dovere in qualche modo metterci la faccia, ammettere la propria parzialità. D’altra parte c’è una sorta di timore nei confronti del dato: non osiamo smentirlo, contestarlo, perché troppo spesso non abbiamo le competenze statistiche di base per fare le domande giuste. Ma possiamo partire dalla consapevolezza che le domande importanti possono essere anche semplici: cosa c’è dietro il numero? che contesto comprende? Chi lo ha elaborato?
Bisogna insomma smontare una certa retorica del dato. E bisogna fare attenzione a non cascare nella stessa dinamica. Penso alla lotta contro le fake news e al debunking su temi più delicati. Io credo che la lotta sui numeri tra due fazioni contrapposte non porti da nessuna parte, perché i numeri sono numeri e possono dire qualunque cosa, dipende tutto da dove li si guarda. Combattere la retorica sovranista sui migranti contestando i numeri e producendone altri, per esempio, non fa altro che alimentare la medesima disumanizzazione delle persone migranti, che continuano a essere rappresentate come numeri. Saper leggere e smontare una certa rappresentazione statistica vuol dire anche saper riportare il discorso sulla storia umana di queste persone. Rappresentarle innanzitutto come persone. A livello comunicativo questo approccio può avere un grande impatto, perché lavora sul piano emotivo.
In chiusura, potrebbe consigliarci una lettura per approfondire?
Consiglierei un libro fondamentale: Counting, di Deborah Stone. Un libro prezioso, che spiega molto bene in che modo i dati vengono utilizzati per prendere decisioni politiche, che hanno un impatto sulla nostra vita quotidiana.