Da sempre ci rifugiamo nei numeri per cercare conferme e certezze. Il mondo fenomenico è di per sé complesso, tuttavia, se riusciamo a ridurlo ad alcuni suoi aspetti quantitativi fondamentali, ne ricaviamo una semplificazione che ci aiuta nelle decisioni quotidiane.
“Io mi fido solo dei numeri, loro non ti tradiscono” dice John Turturro nei panni di Moe Flatbush a Spike Lee nel film Mo’ better blues.
Non stupisce dunque che in questi giorni di assoluta incertezza ingenerata dalla pandemia di Covid-19, moltissimi si rivolgano al potere dei numeri per trovare conforto e speranza.
Con una regolarità che non ricordavamo ormai da anni (e che i più giovani probabilmente non hanno mai visto), ci ritroviamo tutti i giorni alle 18 davanti al televisore, o comunque collegati via internet, per ascoltare i nuovi dati relativi ai contagi emessi dalla Protezione civile.
Tuttavia, i numeri di per sé possono essere ingannevoli e vanno interpretati correttamente. In questo entra in gioco la statistica.
In tal senso va immediatamente chiarito che le statistiche quotidiane relative allo sviluppo della pandemia in Italia rappresentano solo una (utilissima) fotografia dell’esistente, ma non possono essere immediatamente generalizzate alle caratteristiche intrinseche dell’epidemia come tale.
Mi spiego meglio: se leggiamo che attualmente in Italia il tasso di letalità (numero di morti per infetti) è dell’11,7% (dato al 22 marzo) questo non va interpretato assolutamente come il fatto che attualmente chi sia ammala da coronavirus ha una probabilità dell’11,7% di non sopravvivere. In realtà ciò che osserviamo è solo una parte di un fenomeno molto più ampio che si va evolvendo in questi giorni: ciò che gli statistici chiamano campione.
Un campione, nel linguaggio statistico, rappresenta ciò che i filosofi chiamano il fenomeno (dal greco fainòmenon – “ciò che appare”): ciò che riusciamo ad osservare. Tale concetto è contrapposto all’idea di popolazione che rappresenta, invece, ciò che vorremmo poter osservare, la realtà nella sua interezza, quello al quale si riferiscono i filosofi come l’universalmente valido, il fenomeno nella sua interezza (il noumeno – “ciò che può essere pensato”). Nel ricavare informazioni universalmente valide da quanto osservato in un campione necessariamente limitato dobbiamo dunque seguire un procedimento statistico-induttivo il quale, tuttavia, obbedisce a delle precise regole.
Invero, di fronte all’impossibilità di osservare un fenomeno nella sua interezza, per secoli l’uomo si è affidato alla vaga speranza che un campione di osservazioni empiriche, comunque raccolte, rappresentasse bene l’intera popolazione. È solo negli anni 30 del secolo scorso che le cose cambiano, quando la statistica chiarisce che, per poter generalizzare in maniera soddisfacente i dati raccolti all’intera popolazione, essi devono devono essere selezionati tramite un rigoroso sistema di campionamento nel quale ogni unità ha la medesima probabilità di essere estratta garantendo, per così dire, una certa qual oggettività del criterio di raccolta.
Tale condizione non è evidentemente soddisfatta nel caso dei dati epidemiologici che stiamo osservando in questa fase di esplosione dell’epidemia da Covid-19. Finora, infatti, come è giusto che sia, i dati relativi al numero di infetti, al numero di tamponi effettuati, ai ricoveri, ai pazienti in terapia intensiva etc., vengono raccolti così come ci giungono, senza un preciso piano degli esperimenti campionari, seguendo criteri di pura necessità di controllo dei casi più gravi e di immediata disponibilità. Questo è quello che in statistica si chiama campione di convenienza, il quale non consente generalizzazioni con un sufficiente grado di affidabilità.
Ad esempio, il tasso di letalità, al quale abbiamo fatto riferimento precedentemente, è basato su dati che non sono stati raccolti con un criterio puramente casuale su tutto il territorio nazionale, ma al contrario sono concentrati per ovvi motivi nelle regioni maggiormente colpite da virus. Tale tasso rappresenterà pertanto una stima inaffidabile del vero valore relativamente all’intera popolazione italiana.
Accanto a tali errori dovuti al criterio di raccolta dei dati, inoltre, le stesse grandezze sono affette da altri tipi di distorsione. Infatti, detto tasso di letalità è calcolato avendo a denominatore solo gli infetti ai quali è stato effettuato un tampone, non considerando quindi gli infetti asintomatici e coloro che, presentando solo sintomi lievi, non si sono sottoposti al tampone. Inoltre, calcolare il tasso come il rapporto istantaneo tra numero di decessi e numero di persone infette non tiene conto che i deceduti in un certo istante di tempo hanno contratto la malattia non in quel momento, ma giorni addietro. Per tutti questi motivi, il tasso di letalità attuale rappresenta, dunque, una stima inaffidabile della probabilità di quanti, affetti dal virus, avranno un esito letale.
Ma la statistica non è solamente descrizione dello stato di fatto di un fenomeno, descrizione che, come abbiamo provato ad illustrare sopra, può essere ingannevole. Essa assolve anche ad un compito più ambizioso, che è quello di sviluppare modelli interpretativi i quali consentono, sotto certe condizioni, di prevedere andamenti futuri dei fenomeni empiricamente osservati. Questo spiega l’enorme interesse che si sta sviluppando intorno ai modelli statistici in queste settimane nelle quali le previsioni dell’andamento dell’epidemia sono di vitale importanza per ciascuno di noi e non solo per pochi addetti ai lavori.
In tal senso, navigando in rete è facile trovare numerosi contributi di membri della comunità scientifica statistica i quali, utilizzando modelli anche molto diversi tra di loro, provano a rispondere alle domande che tutti abbiamo a cuore in questi giorni (si vedano, ad esempio, i link riportati sul sito della Società Italiana di Statistica).
“Torneremo ad abbracciarci” ha affermato l’8 marzo il presidente del Consiglio Giuseppe Conte. “Ma fra quanto? E in quanti di meno?” si è chiesto Carlo Verdelli nell’editoriale di Repubblica del 12 marzo. Al di là del riuscire di elaborare sofisticati modelli in grado di prevedere da un giorno all’altro l’andamento dei numeri caratterizzanti l’epidemia, sono, invero le previsioni a medio-lungo termine che ci interessano maggiormente.
In estrema sintesi, mi sembra che le domande cruciali in tal senso possano essere ridotte a tre:
- Quando usciremo dalla emergenza sanitaria?
- Riuscirà il sistema sanitario nazionale a sostenere il peso dell’emergenza?
- Quale sarà il costo in termini di vite umane che dovremo pagare?
In quello che segue proveremo a fornire elementi utili per fornire risposte a queste tre domande.
1. Quando usciremo dalla emergenza sanitaria?
Va detto preliminarmente che alla prima domanda non è essenzialmente la statistica a dover rispondere, avendo essa importanti connotati di tipo virologico, epidemiologico ed anche politico. La statistica, tuttavia, può fornire una base obiettiva sulla quale gli esperti potranno costruire le loro decisioni avendo a cuore il bene della collettività.
Tre sono i momenti decisivi nell’evoluzione dell’epidemia che ci interessa prevedere in tal senso.
i) Il primo momento è quello nel quale il numero dei contagiati (e connesso con essi il numero di ricoverati, il numero di pazienti in terapia intensiva ed il numero di decessi) inizierà a rallentare la crescita. Si noti bene. Rallentare la crescita non significa che scende a zero il numero di infetti, ma solo che la crescita continua, ma con un ritmo decrescente. In tal senso il modello che abbiamo utilizzato (e che può essere consultato al sito https://covstat.it/) fornisce le previsioni riportate nella Figura 1.
Figura 1: Incremento giornaliero degli infetti. Dati reali e valori previsti
Il grafico mostra come il modello da noi sviluppato prevede che il numero giornaliero di infetti si stabilizzi tra il 21 e il 29 marzo, raggiungendo un picco intorno al 25 marzo. Il notevole calo di infetti registrato il 22 marzo farebbe ben sperare che tale momento di picco potrebbe essere già stato raggiunto. In tal caso saremmo ben lieti di aver sbagliato le previsioni ritardando tale punto di passaggio di qualche giorno.
ii) Il secondo momento cruciale di un’epidemia è quello nel quale il numero dei contagiati scende finalmente a zero. Da quel momento in poi, lungi da aver abbandonato l’emergenza, il problema sarà quello di evitare nuovi contagi e continuare a fornire cure a coloro che ancora sono malati. Per questo secondo aspetto, il nostro modello fornisce le previsioni riportate nella Figura 2.
La figura mostra l’andamento temporale teorico dello sviluppo del numero totale di contagiati (non più, quindi, come prima l’incremento giornaliero) come è stato previsto in due momenti diversi dal nostro modello: al 25 febbraio (prima dunque delle misure di lockdown introdotte a partire dal 9 marzo) ed allo stato attuale.
Il grafico mostra chiaramente come il numero massimo di infetti, originariamente previsto per il 31 marzo, si è ora spostato in avanti in un intervallo che va dall’8 al 15 aprile con un picco presunto al 12 aprile.
Lo spostamento in avanti deve essere interpretato come una ottima notizia in quanto, come mostra chiaramente il grafico, ad esso è associato un numero massimo di infetti più basso. In altre parole, le misure di distanziamento sociale stanno consentendo, per così dire, di spalmare lo stesso numero di infetti su una finestra temporale più ampia consentendo dunque al sistema sanitario di fare fronte all’emergenza in maniera adeguata: il periodo di allerta durerà quindi più a lungo, ma su ritmi maggiormente sostenibili. Le nostre stime si allineano sostanzialmente a quelle ottenute attraverso l’uso di altri modelli da altri studiosi rese pubbliche in questi giorni.
Figura 2: Andamento previsto per il numero totale di contagiati: previsione al 25/2 e previsione attuale.
iii) Il terzo ed ultimo momento cruciale è quello nel quale scende a zero il numero degli infetti e ci si può concentrare sulle misure per evitare l’insorgere nuovi focolai. Tale data corrisponde al momento in cui la curva di destra del grafico riportato nella Figura 2 scende a zero. Nelle nostre previsioni esso si va a collocare a circa un mese dopo l’ultimo nuovo caso rilevato. Ciò corrisponderebbe, grosso modo, a due cicli di incubazione senza nuovi casi.
Come detto in precedenza cosa comportino tali previsioni in termini delle decisioni da prendere per le misure di contenimento sociale non spetta allo statistico dirlo. Esse sono decisioni politiche suggerite da epidemiologi e virologi oltre che da ragioni di opportunità che dovranno soppesare le diverse esigenze.
2. Riuscirà il Sistema Sanitario Nazionale a sostenere il peso dell’emergenza?
Veniamo alla seconda domanda cruciale alla quale tentiamo di fornire una risposta e cioè se il nostro sistema sanitario sarà in grado di sostenere il gravoso impegno imposto dall’emergenza che stiamo vivendo. In tal senso una variabile cruciale da monitorare (anche se non l’unica) è rappresentata dal numero di pazienti ricoverati in terapia intensiva. Al di là di altre informazioni importanti, infatti, il pericolo oggi è quello di non riuscire a fornire adeguate cure a tutti i pazienti più gravi, con il rischio di un innalzamento della mortalità dovuta al virus.
La Figura 3 mostra i valori effettivi del numero di ricoverati in terapia intensiva ed i valori previsti dal nostro modello. Oltre all’andamento effettivo e teorico del fenomeno, il grafico mostra anche altre due informazioni importanti. La prima riguarda la soglia massima di disponibilità di posti in terapia intensiva al momento dell’insorgere dell’epidemia. Essa era collocata a 5.404 posti distribuiti su tutto il suolo nazionale. La seconda, più alta, rappresenta il numero di posti potenzialmente disponibili ad oggi ed è basata sulle dichiarazioni rilasciate dalle Regioni sulle nuove strutture di terapia intensiva che saranno aggiunte a breve (si veda a riguardo il sito di Anaoo/Assomed).
Il grafico riportato nella Figura 3 mostra come, allo stato pre-Covid, il Sistema Sanitario Nazionale sarebbe andato in sofferenza nel periodo tra il 31 marzo ed il 25 aprile, mentre, qualora l’ampliamento annunciato in questi giorni dovesse diventare operativo nelle misure indicate, tale pericolo sarebbe scongiurato.
Va osservato tuttavia come i dati riportati nella Figura 3 si riferiscano al totale nazionale, mentre la distribuzione regionale può subire stress molto diversi. Ad esempio, attualmente la Lombardia ha un tasso di saturazione dei posti di terapia intensiva di circa l’83%, mentre la maggior parte delle Regioni del Sud presentano tassi di occupazione molto più bassi.
Pur non superando dunque la soglia nazionale della disponibilità di posti, lo sforzo del Sistema Sanitario Nazionale potrebbe essere quello di redistribuire geograficamente i pazienti più gravi che non dovessero trovare adeguata cura nella propria Regione di residenza.
Figura 3: Numero di pazienti in terapia intensiva. Evoluzione temporale dei valori effettivi e dei valori previsti rispetto ai posti disponibili.
3. Quale sarà il costo in termini di vite umane che dovremo pagare?
E veniamo all’ultima domanda cruciale che è quella che forse sta maggiormente a cuore a tutti noi. In quanti di meno ci ritroveremo al termine di questa emergenza che ci ha assalito? A riguardo credo che sia doverosa una premessa. Finora abbiamo discusso di dati, modelli e previsioni, ma se passiamo a parlare del numero di decessi non possiamo dimenticare che questi non rappresentano solo numeri, ma che dietro ciascuno di essi abbiamo persone che soffrono e che vengono a mancare e che ogni unità in più in tal senso ha una storia unica ed un volto caro ad altre persone. In questo senso dobbiamo essere orgogliosi della scelta operata in Italia di tentare in tutti i modi di fornire cure adeguate e di limitare il numero di decessi, mostrando così una grande attenzione alla centralità della persona e al valore della vita umana. Nel panorama internazionale tale scelta, come abbiamo visto in questi giorni, non è per nulla scontata.
Fatta questa premessa va detto che una stima di tale numero è resa ad oggi estremamente inaffidabile per due ordini di motivi.
i) In primo luogo, per quanto già detto, non è possibile, ad oggi, disporre di una stima affidabile del tasso di letalità del virus in quanto mancano i dati di base necessari per il suo calcolo. Come osservato in maniera colorita recentemente dalla dottoressa Ilaria Capua in un’intervista, un piatto viene buono solo se sono buoni gli ingredienti. Allo stesso modo un modello previsionale è affidabile se lo sono i dati in entrata.
Al contrario, come già detto, i dati sui tamponi finora raccolti sono basati su un campionamento non rigoroso di convenienza che ha, ovviamente, privilegiato l’esame di casi che manifestavano sintomi. Tali dati non consentono di produrre una stima probabilistica non distorta ed un buon livello di accuratezza. In particolare, nei dati finora raccolti risulta sottostimato il numero di contagiati, essendo assenti gli asintomatici e coloro che hanno contratto il virus in forma lieve e che sono guariti, con una conseguente sovrastima del tasso di letalità. Anche i dati raccolti a tappeto di recente dalla Regione Veneto non rappresentano un campione probabilistico da disegno. Raccogliendo le osservazioni davanti ai supermercati, infatti, si sovra-includono le persone sane e si sotto-includono quelle che, manifestando sintomi, sono costretti a casa.
Al fine di ricavare stime affidabili della letalità, e quindi del numero atteso di decessi al termine della pandemia, sarebbe ora assolutamente fondamentale, compatibilmente con l’impegno di forze attualmente dispiegato per il controllo dell’emergenza, mettere in atto un controllo a campione dell’intera popolazione italiana raccogliendo dati dei tamponi seguendo un preciso disegno campionario. Ritengo utile sottolineare come questa indagine non rappresenterebbe un mero esercizio scientifico, ma avrebbe importantissime ripercussioni sulle decisioni da prendere soprattutto nella fase di discesa dal picco.
ii) In secondo luogo, ogni stima relativa alla letalità e mortalità dovute al virus dipende essenzialmente dal rigore con il quale si continueranno a rispettare le norme di distanziamento sociale e dall’effettivo incremento di posti letto di terapia intensiva al quale abbiamo fatto riferimento nel punto precedente. Qualora malauguratamente le annunciate misure di ampliamento delle strutture di terapia intensiva non dovessero realizzarsi (o non dovessero realizzarsi nei tempi necessari), tali tassi si troverebbero a subire necessariamente un’impennata. Lo stesso rischio si correrà nel caso in cui non si riuscisse ad operare un’efficiente distribuzione regionale delle stesse medesime nuove strutture ed un altrettanto efficiente redistribuzione dei pazienti più gravi su di esse.