Dataninja Magazine - Contenuti e risorse per capire il mondo con i dati

Come fare per

Usare i dati per capire quanti contagi da Covid19 ci sono, vicino a casa mia

Nel magico mondo dei dati certe storie non finiscono, fanno dei giri immensi e poi ritornano, come diceva Venditti. Una di queste storie riguarda i CAP, codici di avviamento postale, che sono dati pubblici ma non sono open data. Pagati con le tasse di noi cittadini, raccolti negli anni dallo Stato italiano, ora sono di […]
6 gennaio 2022
6 minuti

Nel magico mondo dei dati certe storie non finiscono, fanno dei giri immensi e poi ritornano, come diceva Venditti. Una di queste storie riguarda i CAP, codici di avviamento postale, che sono dati pubblici ma non sono open data. Pagati con le tasse di noi cittadini, raccolti negli anni dallo Stato italiano, ora sono di proprietà di Poste Italiane, che li vende. Se fossero open data sarebbero utilissimi per chi fa le mappe. Per come stanno le cose oggi invece, se un cittadino come me volesse usare per lavoro quei CAP, dovrebbe ripagarli un’altra volta. È uno degli “scandali” dell’Open Data italiano questo, e la stessa assurda limitazione vale ad esempio per i dati delle aziende: pagati dalle aziende e dai cittadini, oggi sono raccolti dalle Camere di Commercio che li vende (e tra gli acquirenti sai chi c’è? Ovviamente anche lo Stato! :D). 

Ma andiamo per gradi, per capire per bene il tutto.

Intro

Da due anni ormai abbiamo ogni giorno alle 18 il bollettino Covid con numero di contagi e blabla vari. I vari Corriere, Repubblica e tutti i piccoli siti di news ci dicono il numero totale (cosiddetto “valore assoluto”) dei contagi in Italia, dei tamponi, dei morti, delle terapie intensive. Però siccome vivo a Milano, mi interessa capire di più cosa succede dalle mie parti. Anche perché le restrizioni, quando partono, hanno valore su determinati territori (regioni, province, comuni). Quindi leggendo questo articolo de Il Post, mi sono fermato a vedere questa mappa dei contagi a Milano, che per me è totalmente inedita. 

Questa mappa ha un livello di dettaglio zona per zona mai visto prima (almeno da me). Ad esempio in questa immagine che incollo qui si vede una finestra con scritto “Procaccini, Cenisio, Sempione”, una zona di Milano (la mia) decisamente più piccola del municipio a cui appartiene. Figata stratosferica! Ora, per carità, non è che avere questi dati mi abbia cambiato la vita. Ma potrebbero essermi utili per prendere anche piccole decisioni, essere magari più cauto nei miei atteggiamenti, etc.etc. Avere dati a questo livello di dettaglio non solo sul Covid, ma sui millemila temi differenti che potrebbero interessarci sarebbe preziosissimo, ma averli non significa poterli utilizzare: per arrivare alla mappa i passi da compiere non sono pochi. Vediamoli insieme. 

Dove si trovano i dati?

Spesso diciamo che le fonti principali di dati sono i portali Open Data (esempio: dati.lombardia.it) o le pagine dell’Amministrazione trasparente (esempio: https://www.ats-milano.it/amministrazione-trasparente). In linea di massima se una pubblica amministrazione [deve / vuole] pubblicare dei dati, dovrebbe farlo in una delle due fonti principali che ho citato. 

Nella pratica però spesso non avviene così: report, tabelle e informazioni molte volte vengono pubblicati in sezioni dedicate di siti dedicati, con scelte abbastanza arbitrarie, rendendo queste informazioni spesso difficili da trovare. Per dirne una: lo sapevi che se cerchi i dati statistici più succulenti su Bologna, li trovi in sezioni dedicate curate dall’area “Amministrazione, Controlli e Statistica” del Comune (qui l’indirizzo http://inumeridibolognametropolitana.it/) che non sono Open Data? Quindi diciamo: se non trovi i dati sulle fonti principali, cercali altrove perché potrebbero esserci anche se inspiegabilmente da un’altra parte. 🙂 

È così anche per l’ATS di Milano, che ha sì una serie di dati pubblicati nella sezione Open Data di Regione Lombardia, ma non tutti, anzi. Quelli sulla diffusione del contagio del Covid19 ad esempio li pubblica in questa pagina, piena di criticità:

  • Non è specificata una licenza: quindi non sai se puoi usare questi dati, o ci sono limitazioni.
  • È un pdf, quindi non è un file che posso aprire con Excel (non è machine readable, leggibile da un software per fogli di calcolo).
  • I dati che che ci interessano sono in un pdf raster, non vettoriale. Per capirci: se apri un pdf e col cursore del mouse riesci a selezionare il testo, quello è un pdf vettoriale. Se lo fosse anche questo, potremmo estrarre i dati tramite un software (per esempio http://tabula.ondata.it/) che riconoscerebbe la tabella e i dati all’interno di essa, cella per cella. In questo caso invece la tabella che ci interessa a pagina 22 è un raster, cioè un’immagine: per estrarli devi usare un software OCR (cioè, che fa riconoscimento ottico dei caratteri, come fa ad esempio la funzione Google Lens che abbiamo sui nostri smartphone) che richiede competenze tecniche abbastanza avanzate (come per esempio Tesseract). L’alternativa è ricopiarli a manina.

Ok, ricopiamoli a manina (ma non basta!)

Allora, le criticità si possono risolvere così:

  • Licenza: i dati non presentano licenza, né sul pdf che li contiene, né sul sito dell’ATS di Milano. L’autore dell’articolo ha chiesto info ad ATS che non ha «saputo rispondere». Tecnicamente allora possono essere considerati Open Data by default. Lo dice una legge italiana (il cosiddetto CAD), articolo 52, ma è un principio valido a livello internazionale (info qui). Quindi, disco verde: li possiamo usare!
  • Estrarre i dati: non siamo tutti nerd (a partire da me) e non siamo in grado di usare Tesseract o altri software OCR, quindi ci tocca ricopiarli a manina. Apriamo Excel o altro foglio di calcolo, e poi via, li inseriamo uno per uno rispettando fedelmente la struttura. 

Achtung, achtung! L’ATS scrive che in questa pagina si vede l’incidenza per “Distretto di Milano (CAP)”. Assumiamo allora che Distretto e Cap siano la stessa cosa (ma non sempre è così, anzi: che io sappia l’unico standard dovrebbero essere le aree e le sezioni di censimento dell’Istat, e non è dato sapere se coincidano con i CAP!). Ma insomma, assumiamolo lo stesso dai. Ora, nella tabella che ho incollato sopra abbiamo: 

  • Nella prima colonna: l’elenco dei CAP di Milano (20121, 20122, etc.)
  • Nelle altre colonne dalla seconda in poi: la stima dei casi per 100 mila abitanti.

Ma come faccio a sapere esattamente a cosa coincide il CAP 20121? A quali strade? Quali isolati? Scuole? C’è altro? 

Impossibile saperlo, a meno che non compri il dato da Poste Italiane! Per Il Post quindi sarebbe stato Game Over se qualcuno non avesse scoperto che per la sola Milano i dati dei CAP sono aperti (ecco qui il qualcuno)

Lieto fine (o no?)

È un caso raro, ma c’è: riscrivendo i dati a mano su un foglio di calcolo e riusando i dati dei CAP del Comune di Milano, è stato possibile creare quella mappa. È invece impossibile farlo per la gran parte (tutti gli altri?) dei Comuni italiani che:

  • Non pubblicano dati a questo livello di dettaglio
  • Non hanno il privilegio di avere i dati dei CAP aperti, come concesso da Poste Italiane al Comune di Milano.

P.s.: questo breve post nasce da una chiacchierata fatta su Twitter coi vari protagonisti della vicenda. Se vuoi partecipare alla conversazione, la trovi qui
P.p.s: l’ultima direttiva della Commissione Europea sulle informazioni del Settore Pubblico, individua chiaramente tanto Poste Italiane quanto le Camere di Commercio quali soggetti a controllo pubblico che obbligatoriamente dovrebbero pubblicare questi dati in formato aperto. Che poi non lo facciano è un fatto scandoloso che dovrebbe far parte di una vera battaglia o campagna per la liberazione delle informazioni pubbliche che dovremmo fare noi giornalisti italiani.

Condividi l'articolo