dataninja / magazine - Contenuti e risorse per capire il mondo con i dati

Come fare per · Ispirazioni

Sanremo 2020: Tosca vince la classifica delle parole, Elettra Lamborghini ultima

Il Festival di Sanremo è finito, ma le canzoni restano 🙂 Le abbiamo analizzate per scoprire chi avrebbe vinto il Festival se il parametro di giudizio fossero state…le parole! Sul podio della “diversità lessicale” troviamo…
10 febbraio 2020
5 minuti

Sanremo è finito e, tra posizioni in classifica e voti, di dati se ne sono visti tanti. Ma se è facile immaginarsi fogli di calcolo pieni di numeri, può essere meno intuitivo pensare che anche i testi delle canzoni stesse possono diventare dati da analizzare. Per esempio, quale canzone ha un vocabolario più ricco, “Me ne frego” di Achille Lauro o “Gigante” di Piero Pelù? Oppure, quante parole ha in comune “Niente (Resilienza 74)” di Rita Pavone con “Ringo Starr” dei Pinguini Tattici Nucleari?

Per provare a rispondere a queste domande, ho iniziato predisponendo i dati: dei fogli di testo, ciascuno con dentro il testo di una delle 24 canzoni in gara nella sezione “Campioni”. I testi si possono trovare su Angolo Testi.

Quale canzone ha il vocabolario più ricco?

La prima cosa a cui viene in mente di pensare è a quale sia la canzone con più parole. Si tratta di “Eden” di Rancore: 603 parole, ovvero 200 in più della seconda canzone con più parole, “Musica (e il resto scompare)” di Elettra Lamborghini.

Alcune parole, per esempio congiunzioni e articoli, sono un po’ noiose e soprattutto poco utili per capire il contenuto di un testo. Come spieghiamo in fondo all’articolo esiste un modo per eliminarle. Vediamo dunque qual è la canzone con più parole nel testo ripulito dalle parole presenti nella lista di parole da escludere. Rancore rimane in prima posizione anche in questo caso, ma con un numero ridotto di ben 300 termini.

Già con quest’ultima metrica ci avviciniamo al concetto di vocabolario ricco: un cantante che sa inserire in una canzone ben 171 parole diverse (escluse congiunzioni e articoli) ha un vocabolario interessante. C’è un però: la canzone di Rancore è anche quella con più parole, quindi chiaro che questo gli ha fornito più possibilità di usare termini diversi. Proviamo dunque a vedere se la classifica cambia una volta che calcoliamo le canzoni con il più alto tasso di parole uniche sul totale delle parole del testo ripulito. Questo ci permette di confrontare la varietà del vocabolario tra canzoni di lunghezza diversa. Ora la classifica cambia: Rancore scende a metà classifica e Tosca, con “Ho amato tutto” prende la prima posizione. Al contrario, la canzone che usa una diversità lessicale minore è quella di Elettra Lamborghini, che pure era al secondo posto per numero di parole. E, per rispondere alla nostra domanda iniziale: la canzone di Achille Lauro batte quella di Piero Pelù.

Ed ecco cambia la classifica in base al parametro scelto per il confronto.


(Le linee verdi sono per le canzoni che migliorano la posizione finale (tasso di parole uniche) rispetto a quella iniziale (numero di parole totali); le linee rosse per canzoni che la peggiorano; le linee grigi0-azzurro per le canzoni la cui posizione final è uguale a quella iniziale.)

E Rita Pavone con i Pinguini Tattici Nucleari, quanto hanno in comune?

Il testo della canzone di Rita Pavone ha 3 parole in comune con quella dei Pinguini: “niente”, “mai”, “testa”. Ha invece ben 10 termini in comune con Raphael Gualazzi: “adesso”, “cadere”, “fammi”, “fiato”, “meglio”, “ogni”, “parola”, “qui”, “resto”, ricordo”, “tempo”, “vento”.

Puoi usare il grafico qui sotto per esplorare altre connessioni di termini tra canzoni. Le bolle turchesi rappresentano i cantanti, le bolle viola i termini usati nelle loro canzoni, tanto più grandi tanto maggiore è la frequenza con cui compare il termine. Le bolle al centro del grafico sono quelle più interconnesse: vi troviamo quindi i termini in comune a più canzoni e i cantanti con un vocabolario più simile. Le bolle invece che si trovano verso i bordi del grafico rappresentano i termini meno comuni, spesso associati esclusivamente a un solo cantante. Esplora il grafico cliccando sulle singole bolle.

Ora tocca a te

Se vuoi esplorare tutti i termini usati da ciascun cantante e la relativa frequenza puoi consultare la tabella sottostante. Scrivi il nome del cantante che ti interessa nella barra di ricerca per vedere la frequenza dei termini nel testo della sua canzone. Puoi copiare-incollare i dati per creare una wordcloud e visualizzare le parole più usate dal tuo cantante preferito, usando questo tool gratuito.

Cosa bisogna fare prima di poter confrontare dei testi

Nel fare analisi di testi, un primo problema in cui si incorre è che non tutte le parole sono interessanti. E, ancora peggio, le parole meno interessanti saranno probabilmente le più frequenti! Pensiamo alle congiunzioni (“e”, “o”) o agli agli articoli (“il”, “lo”, “la”): ci dicono poco sul contenuto del testo, eppure saranno quasi certamente quelle che appaiono più di tutte le altre. Per questo, è bene escluderle dai conteggi. La questione però non è sempre facile e non esistono scelte oggettive. Per comodità, le nostre analisi sono state fatte escludendo le 279 parole presenti in questa lista.

Nota: una lista di parole da escludere si chiama lista di stopwords.

Un secondo problema da fronteggiare è quello delle desinenze: “corro”, “corri”, “correre” sono termini che verranno conteggiati separatamente da un computer, mentre un essere umano che li legge comprende immediatamente che fanno parte della stessa radice e li preferirebbe conteggiati tutti assieme. Purtroppo, mentre per la lingua inglese esistono algoritmi che permettono di applicare questo processo velocemente, lo stesso non si può dire per l’Italiano. Per semplicità, abbiamo dunque escluso quest’aspetto dall’analisi dei testi di questo pezzo, sebbene sarebbe fondamentale.

Nota: Il processo per uniformare questi termini si chiama lemmatizzazione.

Condividi l'articolo