Abbiamo chiesto a Giuseppe Arbia, ordinario di statistica economica all’Università Cattolica del Sacro Cuore, di valutare l’attendibilità e l’utilità dell’indice Rt come criterio per la determinazione delle misure di contenimento della pandemia, quali quelle adottate al momento su base regionale nel nostro Paese. I limiti intrinseci dell’indice Rt risiederebbero secondo Arbia nel fatto (fra gli altri) che la misura su cui si basa non è operata su un dato statistico ma sui tamponi effettuati discrezionalmente da ogni regione, dando così origine a una distorsione. L’indice Rt ha rappresentato e rappresenta uno strumento utile in altre circostanze e per altri scopi, come ad esempio a inizio pandemia, quando ancora non serviva scorporare il dato a livello regionale, o anche attualmente, ma solo per determinare l’andamento nel tempo e quindi l’evoluzione del virus, i suoi picchi, i minimi. L’utilizzo in termini assoluti e l’applicazione dell’intero modello, detto SIR, ai fini della sorveglianza attiva, risultano invece altamente inefficaci secondo lo statistico, che si pone in questo senso nel solco delle perplessità già espresse dall’Istat e dall’Accademia dei Lincei.
Professore, perché l’indice Rt non è a suo avviso un criterio efficace?
Ogni misura basata sul numero degli infetti, e tra queste anche l’indice Rt, è assolutamente inaffidabile, questo io lo dico da tempo e non sono solo: lo dicono tutti gli statistici. Inefficace perché il numero degli infetti è rilevato giornalmente sulla base dei tamponi. I tamponi non sono un campione statistico, sono dei dati che vengono raccolti sulla base della convenienza, e i tamponi sono prevalentemente amministrati a individui che hanno sintomi. Quindi la misura che noi abbiamo sottostima gli asintomatici e i paucisintomatici, su questo non c’è alcun dubbio.
Quali sono le conseguenze?
Anzitutto la misura “numero d’infetti per 100mila abitanti” – quella che fa scattare la zona rossa nelle regioni in cui si va al di sopra dei 250 casi ogni 100mila abitanti – dipende dal numero degli infetti rilevati, e siamo in un sistema in cui il numero degli infetti è sottostimato, non solo perché non si basa su quello che in statistica chiamiamo un “campione casuale”, ma anche perché dipende dal numero dei tamponi che vengono somministrati.
Ad esempio?
Se in una regione vengono somministrati pochi tamponi è verosimile che quella regione non eccederà mai i 250 casi per 100mila abitanti e quindi non entrerà nella zona rossa. La cosa diventa ancora più complessa quando il numero degli infetti va a fare da input in un modello come quello che determina l’indice Rt.
Ci dica di più.
Talvolta leggiamo espressioni improprie, come “Rt dell’1%”. Rt, e questo credo non sia ancora stato spiegato a sufficienza, non è una grandezza primaria o una percentuale. Rt è un parametro di un modello, un modello che si fonda su determinate ipotesi. Questo modello si chiama SIR, che sono le iniziali dei tre elementi fondamentali del modello stesso: i suscettibili, gli infetti e i rimossi, ossia coloro che, per ragioni diametralmente opposte, non sono più infettabili, o perché guariti o perché deceduti. In questo modello ci sono alcune grandezze che sono determinate in maniera esogena, esterna al modello, per esempio quella che si chiama il tempo di generazione.
Di che si tratta?
È il tempo che interviene fra infezione primaria e contagio, il tempo che mediamente intercorre tra quando una persona s’infetta e quando ne infetta un’altra. Ora, questo parametro è esogeno al modello e, a quanto mi consta, è stato stimato in febbraio su dati della sola Lombardia e da allora è rimasto sempre lo stesso, mentre è verosimile che vari nel tempo e nello spazio. L’altro input del modello è quello degli infetti, del quale abbiamo già parlato.
E abbiamo detto che è un elemento problematico anche questo.
Sì, come ho detto viene notevolmente sottostimato, tant’è che altri modelli, tra cui quello sul quale baso le mie stime, ci dicono che oggi gli infetti non sono i circa 2 milioni e mezzo ufficiali ma quasi 10 milioni: l’ultima stima era di 9,6 milioni per l’esattezza.
Come questo influisce sul modello?
Nel modello ufficiale si introduce una stima degli infetti che come output ci genererà l’Rt, Rt che risentirà del valore non calcolato in maniera esatta.
E poi?
Ricapitolando, abbiamo il tempo di generazione che è stimato esogenamente al modello, poi un elemento di input del modello che è il numero degli infetti (con i limiti che abbiamo detto), e poi abbiamo l’ultimo, che è definito da quanto è lunga la serie temporale che viene considerata. Se io stimo questo modello sull’ultimo mese ottengo un certo risultato, se lo stimo sugli ultimi due ho ancora un altro risultato, e questa è una scelta soggettiva del modellista.
Un’altra ombra di dubbio sull’utilizzabilità di Rt?
Sì, l’indice Rt è soggetto a troppe scelte modellistiche. Rt aveva un senso ad esempio a principio epidemia, quando veniva calcolato per tutta l’Italia, non su base regionale.
Perché aveva un senso?
Perché allora la lunghezza della serie era costituita da tutti i dati raccolti relativi a un’epidemia sempre in crescita, non c’era nessuna scelta soggettiva nell’intervallo temporale, ci interessava l’andamento di base di tutto il Paese in tutto il periodo per capire come evolveva l’epidemia, non il dato regionale che ci serve oggi per prendere determinati provvedimenti in determinati periodi. Oggi, calcolato a livello regionale con tutti questi dubbi, ha molto meno senso utilizzarlo.
Ci spieghi.
Ha senso osservare l’andamento storico e andare a vedere quanto cresce Rt nel tempo, non ha senso invece osservare il valore assoluto. Prendere il valore 1 come riferimento per dire se la situazione va bene o va male è fuorviante. Certamente se vediamo calare Rt siamo contenti, ma, con tutti questi elementi soggettivi nella sua stima, non si può dire che quando Rt scende sotto a 1 le cose vanno bene. E questo in generale vale per tutto il modello SIR.
Per quali altri usi il modello SIR si mostra invece funzionale?
Il modello serve e serve bene, e ha dato già in passato risultati buoni, ad esempio per determinare il momento di picco della pandemia, il momento in cui si raggiunge il punto di minimo, i cambiamenti di tendenza, ma non per prevedere il numero assoluto degli infetti o dei ricoverati in terapia intensiva o dei morti. Il fatto è che è proprio questo il punto che noi abbiamo a cuore per la sorveglianza.
Una sorveglianza basata invece su campionamenti statistici non rischierebbe di avere come conseguenza la chiusura totale?
Non credo, la conseguenza sarebbe uno sguardo più realistico sulla situazione effettiva.
Il criterio davvero penalizza le regioni che fanno più tamponi?
Certo, una regione che si tiene bassa col numero dei tamponi rileva pochi infetti e la sottostima ha due effetti: in primo luogo, il parametro “numero d’infetti per 100mila abitanti” resta basso, motivo per cui, come dicevo, la regione non rischia di passare in zona rossa; in secondo luogo, quando usiamo questo come input nel modello Sir viene fuori un Rt basso, quindi una regione che fa tanti tamponi, facendo peraltro un’opera meritoria, viene penalizzata. E poi vorrei dire un’altra cosa molto importante: in generale, mi sembra paradossale che guardando questi parametri si creda di essere oggi di fronte a un quadro incoraggiante.
A cosa si riferisce?
Come facciamo a dire oggi che l’epidemia è sotto controllo se abbiamo ancora 400 morti al giorno? Oggi (26 gennaio, ndr) ci sono stati 420 morti, la media settimanale oggi è di 469, la stessa di 3 settimane fa, quando era l’Epifania ed era appena trascorso il periodo natalizio. Oggi abbiamo 2.440 ricoverati in terapia intensiva: sono solo 17 in meno rispetto a 3 settimane fa. Abbiamo avuto, sempre nella giornata di oggi, 155 nuovi ingressi in terapia intensiva, esattamente come tre settimane fa. Oggi abbiamo un saldo tra ingressi e uscite di + 21 (se ne sono entrati in terapia intensiva 155 ne sono usciti 134, se per morte o guarigione non lo sappiamo).
È per questo che dice che l’osservazione di Rt come criterio dirimente e assoluto è inefficace?
Sì, perché in realtà è da tre settimane che siamo agli stessi livelli, e quanto regge il sistema sanitario su questi livelli? Cosa succederebbe se ci fosse una risalita a partire dai livelli in cui ci troviamo ora, e da cui non siamo in grado al momento di scendere? Insomma non siamo scesi, checché ne dicano i vari Rt regionali.
Cosa bisognerebbe fare?
È da marzo che noi statistici lo diciamo, occorrono indagini ad hoc per fare la sorveglianza attiva, non possiamo basarci sul dato dei tamponi, dobbiamo dedicare un certo numero di tamponi a un’indagine su un campione disegnato con un criterio statistico, in cui possono entrare ugualmente gli infetti e i non infetti, gli asintomatici e i paucisintomatici, un campione casuale in cui tutti “rischiano” ugualmente di essere testati. Quello che viene usato ora è un campione non casuale, per di più con una distorsione a favore dei sintomatici, dal momento che il test si fa principalmente se la persona ha sintomi.
C’è stata da parte vostra qualche proposta in questo senso?
Con gli ex Presidenti Istat Giorgio Alleva e Alberto Zuliani e altri colleghi abbiamo pubblicato tempo fa un lavoro contenente un piano di campionamento ottimale, un piano cioè che minimizzi il numero di unità da andare a osservare per fare un’indagine di questa natura.
E in cosa consiste?
Abbiamo calcolato che con 5mila tamponi riusciamo a fare un buon campione statistico. 5mila tamponi potrebbero essere fatti ogni settimana. Se, su 100-150mila tamponi che facciamo tutti i giorni, 5mila venissero destinati a scopo statistico anziché emergenziale, noi avremmo un contenuto informativo imparagonabile. Quello che chi non è del settore non sa è che un campione non deve essere necessariamente grande per essere efficace, basta che sia costruito con criteri statistici. Un campione che potrebbe sembrare piccolissimo è invece efficace se selezionato con criterio (noi diciamo secondo un “disegno”). Inoltre in tal caso riusciamo a dire: in questo risultato io credo al 95%. È un altro vantaggio di uno studio statistico: poter associare anche una probabilità di credibilità.
Immagino che avendo elaborato il modello vogliate anche usarlo. Avete trovato ascolto a livello istituzionale o politico?
Noi abbiamo pubblicato lo studio su una rivista internazionale e lo proporremo presto a un seminario dell’Accademia dei Lincei, che condivide i nostri dubbi, tanto che tempo fa è intervenuta dicendo proprio le stesse cose. Altri passi formali non sono stati fatti, noi siamo accademici, non politici.
Un tentativo fu fatto dall’Istat ma senza successo.
Il tentativo dell’Istat non ha funzionato perché probabilmente è stato fatto prima dell’estate e solo un terzo dei 150mila ha risposto. Quando c’è un tasso di caduta così elevato i risultati sono scarsamente affidabili. A prescindere da questo, si tratta comunque di un’indagine che andrebbe fatta ripetutamente se si mira a un monitoraggio e a un controllo progressivo della situazione. Noi abbiamo fatto una proposta in questo senso nella prima ondata. Finita la prima ondata appariva forse superfluo, ma ora che siamo ancora nella seconda ondata sarebbe opportuno disporre di uno strumento del genere, anche perché non sappiamo cosa può accadere in futuro.
(Emanuela Giacca)