Dataninja Magazine - Contenuti e risorse per capire il mondo con i dati

Diventa Data Leader · Ispirazioni

Il triathlon come non l’avete mai letto

In questa pagina trovi il lavoro svolto dagli studenti e studentesse del Master Dataninja, svolto con il supporto di LWT3. Il progetto investiga come poter utilizzare gli sports analytics per studiare la performance del Team Italy nelle gare di Triathlon.
22 luglio 2021
10 minuti

Uno sguardo ai numeri del triathlon italiano

In questa pagina trovi il lavoro svolto dagli studenti e studentesse del Master Dataninja, svolto con il supporto di LWT3

Un lavoro di: Alessandro Gangemi, Alice Carlotta Servi, Enrico de Mujà e Laura Bassi.

Premessa

Il presente documento costituisce uno dei progetti finali del master di formazione sui dati a cura della Dataninja School, tenutosi online per 16 settimane nel primo semestre del 2021. Il data provider per quest’attività è la società LWT3, attiva nel campo dell’analisi dei dati e visualizzazione in campo sportivo. 

Noi quattro neofiti della visualizzazione dei dati ci siamo cimentati alla scoperta del Triathlon e dei suoi segreti. Il tentativo era quello di documentare e comprendere se fossero elementi chiari di comprensione delle performance degli atleti italiani di Triathlon nel periodo 2013–2020. Inoltre abbiamo cercato di capire come lo stesso il team italiano si posizionasse nel ranking mondiale, confrontandolo con il team francese (dati Federazione Internazionale World Triathlon).

Introduzione

Partendo da neofiti, non solo della visualizzazione dei dati, ma anche del triathlon, come prima cosa abbiamo affrontato cercato di comprendere questo sport complesso. 

Il triathlon si articola su tre discipline che si svolgono in successione con un ordine fisso: nuoto, ciclismo e corsa. Il tempo totale di gara viene computato comprendendo anche le transizioni tra una fase e quella successiva, e queste fasi vengono denominate transizione 1 — T1 (nuoto/bici) e transizione 2 — T2 (bici/corsa). Ci ha colpito l’importanza delle fasi di transizione tra una disciplina all’altra, cosa che ci ha anche illuminati sulla complessità del lavoro di analisi delle performance in questo sport. Dal 2000 il triathlon è specialità olimpica, sia maschile che femminile, e dal 2021 è stata introdotta anche la gara a squadre con la formula a staffetta mista (2 uomini e 2 donne). Anche in funzione delle prossime Olimpiadi di Tokyo è stato approntato un dataset, fornitoci da LWT3, che permettesse di migliorare le scelte fatte per la competizione olimpica.

Metodologia

Dopo esserci fatti un’idea generale di come venga condotta una gara di triathlon in generale, abbiamo dovuto comprendere il funzionamento delle diverse tipologie di gara e le relative classificazioni. Non tutte le gare hanno la stessa distanza, per cui esiste un sistema di qualificazione per categorie e un sistema di ranking specifico per tipologia di gara. LWT3 ha scelto di accorpare singole competizioni e/o tipologie di gara in macro insiemi omogenei che potessero ricondurre a risultati più comprensibili e lavorabili. La società ha quindi ‘creato’ tre sigle:

  • WTS: World Triathlon Series
  • WLC: World Cup
  • WMRS: World Mixed Relay Series 

Sulla base di questa distinzione abbiamo sviluppato i quattro spunti di riflessione suggeriti da LWT3 (qui ne verranno presentati solo tre), ampliandone la portata quando il dataset non poteva rispondere alle nostre esigenze. E quindi:

  • abbiamo utilizzato il dataset fornitoci dalla società per descrivere la performance degli atleti e atlete italiani/e negli ultimi due cicli olimpici, suddividendo i dati nelle tre tipologie di gara di cui sopra affinché fossero comparabili. Il dataset iniziale è stato sufficiente a sviluppare i primi due punti;
  • Successivamente abbiamo ritenuto necessario utilizzare i dati relativi al ranking internazionale per sviluppare gli altri quesiti proposti.

Numero di TOP 3, TOP 10 e TOP 15 e n. di partecipazioni per anno

La prima questione che abbiamo analizzato riguardava l’andamento dei risultati del team italiano nelle diverse gare, monitorando la numerosità delle TOP 3/10/15 nel periodo 2013-2020 in rapporto al numero di partecipazioni e al numero di atleti per anno.

Per le TOP 10 abbiamo considerato tutti i posizionamenti tra la 4a e la 10a posizione; per le TOP 15 invece tutti quelli tra la 11a e la 15a.

Per la tipologia di gara WLC, gli anni in cui la nazionale italiana ha raggiunto il maggior numero di TOP 3 sono il 2013 e il 2018. Il 2013 è il secondo anno con meno partecipazioni in assoluto, il 2018 invece è quello con più partecipazioni.

Nella prima metà del grafico notiamo come il numero generale di posizioni TOP raggiunte vada a diminuire con l’aumentare delle partecipazioni totali, in rapporto inversamente proporzionale; nella seconda metà, invece, cioè dal 2017 in poi, la tendenza del rapporto si inverte e all’aumentare o diminuire delle partecipazioni segue lo stesso comportamento dei posizionamenti nelle TOP.

Questo tipo di andamento non ci permette di capire se le due variabili, partecipazioni e posizionamenti nelle TOP, siano correlate in qualche modo. In ogni caso possiamo tracciare una prima conclusione: la curva del successo degli atleti italiani subisce una flessione dal 2013 al 2016, con un repentino miglioramento nel biennio 2017/2018, seguito da una nuova flessione fino al 2020.

Per quanto riguarda le gare WTS vi è una principale differenza con le WLC in termini di atleti partecipanti: non solo sono di meno, ma il totale degli iscritti è meno costante negli anni. C’è dunque più variabilità di atleti iscritti alla competizione nei vari anni (nel 2020 il numero di atleti partecipanti è 3, ragionevolmente anche per via della pandemia di Covid-19).

Nella stessa tipologia di gare, la nazionale italiana ha raggiunto delle posizioni in TOP 3 solo nell’anno 2017. Negli altri anni si registra una maggioranza di TOP 10 (dalla 4a alla 10a) rispetto a TOP 3 e TOP 15 (dalla 11a alla 15a).

Per le gare WMRS invece, registriamo partecipazioni al campionato soltanto negli anni 2018 e 2019, con 8 atleti per anno. Nel 2018 ci sono state in tutto 4 partecipazioni, nel 2019 12. Tutti gli atleti si sono posizionati nella TOP 10 in entrambi gli anni.

I numeri molto bassi di questa categoria ci hanno spinti cercare approfondimenti sul sito della federazione del triathlon: la squadra italiana ha iniziato solo negli ultimi anni a gareggiare nella staffetta mista a questo livello e ha raggiunto la qualificazione olimpica. Dunque questi numeri piccoli in realtà ci dicono che la squadra ha avuto un netto miglioramento nei risultati fino a ottenere la qualificazione alle olimpiadi. 

L’ipotesi di un indice sintetico per la misura delle performance della squadra italiana

La seconda consegna proposta riguardava la costruzione di un indice sintetico efficace e comprensibile dell’andamento dei singoli atleti della squadra italiana nel corso degli ultimi 2 cicli olimpici (dal 2013). Nel grafico che abbiamo creato, ma che non è riportato in questo articolo, abbiamo raccolto numero di top 3, top 10 e top 15 per categoria ed anno, e abbiamo rapportato i risultati con le partecipazioni totali di ogni atleta.

In questo modo abbiamo potuto vedere per ogni atleta, l’andamento dei risultati nei due cicli olimpici e capire se ci fosse un andamento positivo o meno, valutando nel contempo e da questa prospettiva se si potesse effettuare un’analisi più accurata e sintetica rispetto a quella proposta al punto 1. 

Abbiamo poi ristretto il grafico che riportava tutti gli atleti e le atlete della squadra italiana ai soli convocati per le olimpiadi per avere un’idea più chiara delle performance degli stessi. 

Si evince che i convocati sono coloro che, oltre ad avere buoni risultati, hanno una maggiore continuità nel tempo e, probabilmente, una maggiore esperienza, infatti a un maggior numero di partecipazioni corrisponde un maggior numero di posizionamenti nelle TOP. 

Il confronto con i cugini d’Oltralpe

Dopo le analisi fatte solo sugli atleti italiani, abbiamo analizzato i ranking di quegli stessi atleti rispetto a quelli francesi, per poter guadagnare un po’ di prospettiva sul panorama internazionale. Per farlo, abbiamo utilizzato diversi dataset scaricati dal sito della World Triathlon. I dataset reperiti riguardavano i ranking mondiali degli atleti elite maschili e femminili e quelli riguardanti i ranking delle squadre per la staffetta mista aggiornati al giugno 2021.

Abbiamo iniziato visualizzando i punteggi degli atleti maschili italiani e francesi. Nel grafico sottostante possiamo osservare la progressione del punteggio degli atleti fino ad arrivare a quello finale, per vedere gli eventuali miglioramenti  significativi in termini di punteggio e il posizionamento attuale (il ranking è aggiornato a fine giugno 2021). Possiamo osservare la Francia in giallo e l’Italia in blu, gli atleti evidenziati sono quelli convocati alle olimpiadi. Risulta evidente che gli atleti che più hanno migliorato il loro punteggio attuale rispetto a quello precedente, sono soprattutto francesi. Si può anche notare che i due atleti italiani convocati alle olimpiadi, non sono stati quelli a raggiungere il risultato migliore in termini di punteggio, ma come visto nel punto 2 sono atleti che garantiscono una continuità di presenza agli eventi e una buona costanza di risultati.

Dopo gli atleti maschili francesi e italiani, abbiamo creato le stesse visualizzazioni con le atlete femminili francesi e italiane. Nella progressione del punteggio fino ad arrivare a quello finale, possiamo notare una maggior omogeneità di risultati tra atlete francesi e italiane. E di nuovo si può notare come la scelta delle atlete olimpiche, non si sia evidentemente basata solo sul punteggio raggiunto.

E infine abbiamo tracciato la progressione di punteggio dei team nazionali della staffetta mista. In questo caso, abbiamo ritenuto utile non limitare la visualizzazione alle sole squadre di Francia e Italia, ma anche a tutte le altre.

Osservando questo grafico possiamo notare come entrambi i team Francia e Italia abbiano migliorato di molto il punteggio attuale rispetto al precedente, ma come di nuovo il team Francia abbia raggiunto punteggi superiori rispetto al team Italia.

Pensieri conclusivi

Questo report mostra solo una piccola parte del nostro lavoro, un tentativo di sintesi dei nostri mesi assieme. Il percorso è stato lungo e abbiamo imparato moltissimo durante l’elaborazione di questo lavoro. 

Inizialmente credevamo che la parte più difficile sarebbe stata ordinare e pulire il dataset. 

E invece ovviamente era solo l’inizio. 

Dopo molte lotte, molta pazienza e qualche ricevimento con la tutor, siamo riusciti a progredire nell’elaborazione dei dati. In questa fase abbiamo imparato che a volte prendersi delle pause dal dataset, è salutare.

E che una dieta sana aiuta a calmare i nervi.

Con tutte queste nuove consapevolezze, siamo arrivati zen alla progettazione dei grafici.

Ci siamo presto resi conto che la modalità con la quale scegli di rappresentare un dato, può fare una certa differenza, anche se il dato resta sempre lo stesso.

E che anche quando il grafico pare quello giusto, la lettura non è sempre immediata

Infine, anche se il dataset è pulito e ordinato, se i calcoli statistici sono corretti, il grafico per rappresentare il tutto è stato scelto con cognizione di causa, ci sono sempre insidie nascoste che possono rendere frizzante il risultato.

Dopo questa esperienza ci portiamo a casa tante ore di sonno perse in cambio di nuove conoscenze e molte risate. 

Un grazie al sostegno della Dataninja School e soprattutto di Alice Corona (la tutor spesso citata).

Link al report finale: https://public.flourish.studio/story/926887/

References

Alice Carlotta Servi, Enrico De Mujà, Alessandro Gangemi, Laura Bassi

Condividi l'articolo