Dataninja Magazine - Contenuti e risorse per capire il mondo con i dati

Come fare per · Data visualization

Come comunicare l’incertezza dei dati

Le nostre linee guida sulla comunicazione dell’incertezza, con un focus particolare sulla visualizzazione dei dati.
14 gennaio 2021
9 minuti

L’incertezza è parte integrante delle nostre vite e del nostro modo di conoscere la realtà: la troviamo nei metodi scientifici con cui investighiamo il mondo e negli strumenti che usiamo per misurarlo, dal termometro al nostro occhio; la troviamo nelle metodologie con cui raccogliamo i  dati e nei modelli matematici e statistici con cui li analizziamo. L’incertezza si forma poi in maniera anche più subdola nelle parole che scegliamo per comunicare e nell’incontro tra le diverse credenze, conoscenze e attitudini delle persone coinvolte nel processo comunicativo.

L’incertezza non si può quindi eliminare. Ma come comunicarla? Che si tratti di far capire l’importanza dell’uso della mascherina e del distanziamento durante una pandemia o i rischi dell’aumento delle temperature globali, chi si trova a comunicare i dati deve affrontare un grande dilemma. Da una parte, se presento i dati come qualcosa ricco di complessità e incertezza, allora rischio di minare la credibilità del mio messaggio e di mettere in ombra le cose su cui invece si ha un qualche livello di sicurezza. Lo stesso rischio si presenta anche con la scelta opposta: se presento i dati come oggettivi e certi, nel tempo le previsioni si potrebbero rivelare false e il pericolo è che si contribuisca ad alimentare nel pubblico diffidenza verso la scienza e i dati.

Insomma: quando i dati escono dalla cerchia di scienziati ed esperti, l’incertezza diventa un problema non da poco. Troppa incertezza genera sfiducia e rischia di mettere in ombra le cose su cui invece si ha un qualche livello di sicurezza. Nessuna incertezza invece crea false aspettative e sulla lunga genera quindi anch’essa sfiducia. L’obiettivo generale sta nel mezzo: mostrare quel tanto di incertezza che aiuta le persone a capire la complessità e a prendere delle buone decisioni.

In questo articolo proviamo a sintetizzare alcune linee guida generali sulla comunicazione dell’incertezza, con un focus particolare sulla visualizzazione dei dati.

Di cosa parliamo:

  1. Serve sempre comunicare incertezza? Ni.
  2. Strategie visive per comunicare l’incertezza
  3. Strategie verbali per comunicare l’incertezza
  4. Considerazioni finali

Serve sempre comunicare incertezza? Nì.

Una persona che comunica i dati deve sempre esplicitare anche gli eventuali limiti di questi dati. È una questione di trasparenza e onestà verso chi ci legge. Non è però sempre necessario raccontare l’incertezza dei dati in maniera prominente nel corpo del testo o nella visualizzazione. A volte può essere sufficiente dedicargli una nota. Come tutti gli altri aspetti comunicativi, la scelta di quanto e come raccontare l’incertezza dipenderà soprattutto dal nostro pubblico e da ciò che vogliamo raccontare:

  • I margini di errore o i limiti nei dati sono tali da modificare o possibilmente stravolgere  il senso complessivo del messaggio o della tesi? Se sì, dedicargli molto spazio a livello visivo e testuale. Se no, basta una nota a margine.
  • Che livello di data literacy ha il nostro pubblico e che accorgimenti devo prendere per raccontargli la complessità dei dati in un linguaggio chiaro? Questo determinerà quanto potrai dare per scontato e quanto dovrai esplicitare.

La risposta a queste due domande ci aiuterà a riflettere sullo spazio da dedicare all’incertezza e sui termini in cui raccontarla.

Strategie visive per comunicare l’incertezza

Una prima considerazione su come rappresentare visivamente l’incertezza riguarda la scelta del grafico: non tutti i grafici riescono a comunicarla. I grafici più semplici (come il grafico a torta) non offrono abbastanza opzioni per includere margini di errore o sfumature. All’estremo opposto, i grafici di lettura più complessa (es. una mappa coropletica) richiedono già uno sforzo di decifrazione notevole, che potrebbe risultare eccessivo introducendo nella lettura calcoli di probabilità o intervalli di confidenza. 

I grafici che in genere si prestano meglio ad ospitare la comunicazione dell’incertezza sono dunque quelli di complessità media, come un grafico a linee o un grafico a barre. Ecco quali sono alcune delle più comuni strategie utilizzate che puoi integrare in questi grafici.

1. Barre di errore e gradienti

Le barre di errore possono essere aggiunte a molti tipi di grafici, per esempio nei grafici a barre, a linee, o a dispersione. Aiutano a interpretare e contestualizzare i valori rappresentati perché possono essere usate per visualizzare la deviazione standard, il range di valori o l’intervallo di confidenza. Oltre alle barre di errore, si possono usare anche i gradienti di colore.

Mean chocolate flavor ratings for manufacturers from four different countries, relative to the mean rating of U.S. chocolate bars. Each panel uses a different approach to visualizing the same uncertainty information. (a) Graded error bars with cap. (b) Graded error bars without cap. (c) Single-interval error bars with cap. (d) Single-interval error bars without cap. (e) Confidence strips. (f) Confidence distributions.
Esempio di uso di barre di errore, gradienti di colore e altre strategie visive per rappresentare i dati contestualizzandoli all’interno della loro distribuzione. Fonte: Fundamentals of Data Visualization di Claus O. Wilke

2. Bande colorate e tratteggi

Si può utilizzare il colore e il tratteggio di parti del grafico per comunicare gli intervalli di confidenza. Per esempio, nel grafico qui sotto vediamo delle bande per rappresentare l’intervallo di confidenza al 95%.

Fonte: FiveThirtyEight, previsioni elettorali.

3. Ventagli

Capita di dover visualizzare dati che sono proiezioni, per esempio riferite al passato, al futuro o a scenari alternativi (“come sarebbero andate le cose se…”). In questi casi è bene sottolineare nel proprio grafico quali dati sono stime e proiezioni e quali invece dati misurati effettivamente. Questo grafico del Guardian lo fa mostrando non un’unica linea, ma una linea per ogni stima di temperatura elaborata in base a diverse proiezioni e modelli predittivi. Soluzioni di questo tipo, con linee o bande colorate, sono chiamate “ventagli” per la forma che assume la parte finale del grafico.

  Fonte : The three-degree world: the cities that will be drowned by global warming by Josh Holde...
Fonte : The three-degree world: the cities that will be drowned by global warming by Josh Holder, Niko Kommenda and Jonathan Watts · The Guardian 

Oltre a queste strategie, potresti valutare di usare grafici meno conosciuti dal lettore medio – a patto di spiegarglieli bene con il testo – quali il box plot e il violin plot. Questi grafici permettono di comunicare meglio la complessità dei dati, contestualizzandoli con numeri quali il valore mediano, massimo, minimo, percentili e distribuzione.

Strategie verbali per comunicare l’incertezza

Il testo ha una parte importante nella comunicazione dei dati. Una cautela che bisognerebbe avere è quella di non suggerire un’eccessiva sicurezza su valori che invece sono incerti. A seconda dei casi,  questo può voler dire fare cose come:

  • Parlare di intervalli invece che di cifre esatte. Per esempio, scrivere “tra le 2,200 e le 2,300 persone” invece che “2,236 persone”. 
  • Arrotondare le percentuali. Per esempio, “il 40% degli italiani pensa che…” invece che “il 38.75% degli italiani pensa che… ”

In linea di massima l’incertezza è strettamente legata al calcolo delle probabilità. A livello di testo, possiamo esprimere questo concetto con una percentuale o con una frazione:

  • Percentuale: “c’è il 10% di probabilità che….”
  • Frazione: “1 persona su 10 …” ; “10 persone su 100 …” 

A livello di numeri le diverse opzioni si equivalgono, ma possono essere percepite in maniera diversa. Interiorizzare le percentuali non è facile, poiché sono concetti molto astratti e questo può renderle difficili da capire per un pubblico generalista. Allo stesso tempo, anche scrivere “1 persona su 100” presenta dei limiti: per esempio qualcuno potrebbe pensare che la ricerca abbia coinvolto solo 100 persone. Come linea guida l’importante è scegliere se comunicare tramite percentuali o frazioni ed essere poi consistenti nella scelta. Se si opta per le frazioni, bisogna fare attenzione a non confondere le acque cambiando di volta in volta il denominatore, per esempio scrivendo “1 persona su 100 ha risposto XX, mentre 1 su 50 ha risposto YYY”. In questo caso sarebbe meglio parlare di “1 persona su 100 ha risposto XX, mentre 2 su 100 hanno risposto YYY” [1]

Considerazioni finali

Come esseri umani siamo abbastanza scarsi quando si tratta di interiorizzare i concetti legati alla probabilità e non riceviamo una solida formazione al riguardo nella scuola dell’obbligo. Questo ci rende vulnerabili quando si tratta di capire l’incertezza.

Compito indiretto ma fondamentale di chi comunica i dati è proprio colmare questa lacuna, spiegando i numeri e le loro implicazioni in maniera chiara e adatta al livello di conoscenza di chi legge. In questo modo si svolge una funzione educativa imprescindibile, che renderà il nostro pubblico sempre più bravo nel leggere i dati nella loro complessità, senza fermarsi a slogan semplicistici e senza allontanarsene per paura di non capirli.

In questi termini, ho trovato molto utili alcuni esempi comparsi nella copertura mediatica durante le elezioni presidenziali americane del 2020. 

Sul Wall Street Journal il lettore poteva decidere come assegnare i voti negli Stati con uno scrutinio incompleto, per simulare i diversi esiti elettorali. La comunicazione dell’incertezza sull’esito è stata comunicata in maniera chiara, con frasi come: “Trump ha 5 modi di vincere i 57 voti che gli mancano. Biden ha 18 modi per vincere i 32 voti che gli mancano”.

Pagine Live Election Results 2020 , Wall Street Journal

Altro esempio interessante è stato Presidential-plinko, dove potevi giocare a far cadere delle palline per capire le probabilità che vincesse Biden o Trump.

Esperimenti di questo tipo allargano la discussione sulla comunicazione dell’incertezza, facendo capire che essa non è soltanto un problema da risolvere, ma un’occasione per parlare a un pubblico generalista della complessità del percorso che porta dai dati alla comprensione del mondo e di come senza incertezza non ci sarebbe conoscenza.

What is not surrounded by uncertainty cannot be the truth,

Richard Feynman 

Letture consigliate per approfondire

Condividi l'articolo