Sul web, nei quotidiani, nei talk show televisivi, sono spesso diffusi risultati di sondaggi su tematiche politiche, sociali o economiche. I sondaggi mirano sia ad informare, più o meno spassionatamente, i cittadini, sia ad attivare dibattiti. Per esempio, nei talk show, la discussione tra ospiti è spesso preceduta da sondaggi focalizzati sui temi oggetto di discussione, quasi sempre presentati in forma di percentuali o di grafici semplificati. Persino la pubblicità di prodotti di ogni tipo, compresi i cosmetici, usa sondaggi “furbi” per comunicare a chi ascolta/legge il compiacimento di coloro che hanno usato il prodotto, con l’ovvio intento di far capire che chi lo compra proverà analoga soddisfazione. Lasciamo da parte i sondaggi di questo tipo, tutti o quasi ottenuti su insiemi esigui di acquirenti di quello stesso prodotto. Ci basti segnalare che l’uso generalizzato dei sondaggi indica che la gente crede ai sondaggi come se fossero prove scientifiche. Il problema è che ci sono sondaggi fatti con i sacri crismi e altri con crismi meno sacri.
Il crisma lo danno le regole del campionamento statistico. Bisognerebbe che, dalla popolazione oggetto d’indagine, si estraesse con criteri casuali un campione di adeguata dimensione e che tutte le persone che fanno parte del campione, interpellate nei modi adeguati, rispondessero alle domande. Purtroppo, è più facile a dirsi che a farsi. Anzitutto, non esiste una lista di italiani, o di famiglie italiane accessibile a tutti. E, anche se esistesse, fare un campione casuale costa molto, per cui si sceglie la via facile dei cosiddetti campioni per quote.
Facciamo l’esempio di una indagine sull’intenzione di voto. Non avendo accesso, se non a costi esorbitanti, alla lista degli elettori, l’istituto di sondaggi mette insieme in qualche modo un campione che “assomiglia” alla popolazione per alcune variabili evidenti, come sesso, età e istruzione, sperando che siano queste le variabili che caratterizzano il voto, e poi chiede al campione per chi voterebbe, se dovesse votare oggi. Come è intuitivo, molti si rifiutano di esprimere la propria tendenza elettorale, altri affermano che non hanno deciso se andranno a votare, altri ancora, per liberarsi dalla seccatura dell’intervista, dicono che non andranno a votare, che è tutto un magna-magna, e così via. Si ricordi che, ad ogni elezione, più del 10% degli elettori decide per chi votare poche ore prima di entrare nel seggio. L’istituto di sondaggi resta, quindi, con le preferenze di voto di un campione che non è mai superiore al 60% degli interpellati. Allora ciò che si diffonde nei sondaggi è tutta immondizia? Assolutamente no. Il mondo è fatto così: milioni di persone sfuggono ai censimenti, figuriamoci se non fanno resistenza ai sondaggi. Gli istituti non possono fare che il possibile.
Cominciamo con l’analizzare ciò che prevedono le norme in materia. Anzitutto, le norme richiedono che sia esplicitato il processo di produzione dei dati: nel 2010, l’Autorità competente (AGCOM – Autorità per le garanzie nelle comunicazioni) ha emanato il seguente regolamento: “I soggetti realizzatori dei sondaggi ed i titolari dei mezzi di comunicazione di massa sono tenuti, …, a conformare la loro attività a requisiti di rigore metodologico, correttezza professionale e trasparenza”, specificando che “la Nota informativa, che deve accompagnare la pubblicazione dei sondaggi su carta stampata, canali audiovisvi, [deve] indicare […]: l’estensione territoriale del sondaggio (nazionale, regionale, provinciale o comunale); la consistenza numerica del campione di rispondenti, il numero o la percentuale dei non rispondenti; la data o periodo in cui è stato condotto il sondaggio; l’indirizzo o sito informatico dove è disponibile il documento completo riguardante il sondaggio (che deve riportare anche la metodologia di campionamento utilizzata e il margine di errore delle stime ottenute).”
Vediamo ora, con un esempio, se e come gli istituti di sondaggi ottemperano a tali criteri e quale uso ne fanno i giornalisti che diffondono i dati. L’esempio (uno preso a caso) è un sondaggio presentato da TGla7 sull’orientamento di voto realizzato nelle settimane 18 e 11 dicembre 2023, da SWG (Fonte: Tg.la7.it). La tabella sottostante riporta la percentuale di voto ai maggiori partiti alla data più recente e la variazione rispetto alla settimana precedente. A piè di lista è riportata la Nota informativa che indica, tra l’altro, che la popolazione oggetto d’indagine è formata dai maggiorenni residenti in Italia, il campione è costituito da 1200 soggetti, stratificato per zona, con quote basate su sesso e età.
Infine è indicato il margine d’errore statistico con un livello di fiducia standard (95%). Il margine è del 2,8%. Le domande che ci possiamo fare sono: si tratta di dati credibili? Hanno fatto le cose per bene? È accettabile quel margine d’errore? La risposta a tutte le domande è: abbastanza. I dati sono abbastanza credibili perché il margine d’errore è, tutto sommato, accettabile. Per esempio, per un partito che prende il 50%, un margine d’errore del 2,8% significa che, con probabilità 95%, il voto che otterremo esaminando l’intera popolazione varierebbe tra il 47,2 e il 52,8%. L’intervallo tra i due estremi è detto “fiduciario”, nel senso che possiamo fidarci perché sappiamo come variano le stime.
Nel caso in esame, l’istituto di ricerca ha proceduto abbastanza bene, nel senso che non ha individuato un campione casuale, ma ha fatto il meglio che poteva, date le circostanze. Per quanto riguarda il margine d’errore, quello indicato è il massimo. Intendiamo dire che si applica solo a percentuali del 50%, mentre è più piccolo per ogni altra percentuale. Nel nostro esempio, il margine d’errore del partito che prende il 3,4% dei voti ha un margine d’errore dell’1,2% e il partito con più voti ha un margine del 2,6%. Tutto questo non è detto nella Nota, né è menzionato nei commenti giornalistici. Addirittura, non si commentano i livelli di voto raggiunti dai partiti, ma le differenze settimanali, che sono frazioni di percentuali. La cosa incredibile è che il margine d’errore di una variazione è persino più grande di quello dei livelli che si pongono a confronto. Per esempio, per il movimento 5Stelle, che mostra la variazione più grande tra tutti i partiti elencati (+0,4%), il margine d’errore è del 3,1%, vale a dire che la differenza settimanale del Movimento varia tra -2,7% e +3,5%.
Concludendo, ci sembra di poter affermare che sarebbe necessario valutare i dati con maggiore prudenza metodologica. I motivi sono vari: il primo è che un campione resta una parte della popolazione, anche se le assomiglia. Il secondo è che i campioni sono, nella migliore delle ipotesi, formati in condizioni di precarietà, nel senso che si fa di necessità virtù. Terzo è che le prescrizioni dell’AGCOM sono così generali che la qualità dei dati dipende più dalla serietà dell’istituto che fa il sondaggio che dalle note a margine.
Probabilmente, gli estensori del regolamento AGCOM sognavano una società nella quale fare un campione casuale, cioè di ottima qualità, costava un’inezia, e nella quale tutti i cittadini interpellati rispondevano con sincerità e consapevolezza alle domande poste e, per finire, i giornalisti conoscevano la statistica quanto basta per capire quali cose potevano essere dette con sicurezza e su quali, invece, bisognava essere cauti. Nessuna di queste cose si è realizzata. Certo, per avvicinare la popolazione alla statistica qualcosa è stato fatto: i concetti e i metodi di base della statistica sono stati introdotti alla scuola primaria e secondaria. Il test Invalsi ha spronato le/gli insegnanti a inserire argomenti di statistica nei programmi scolastici. Tutti i corsi di laurea universitari prevedono almeno un esame di statistica basilare. Tuttavia, in un mondo basato sui dati, non ci possiamo permettere che così tanti possiedano solo i rudimenti del pensiero statistico, a cominciare dagli operatori della comunicazione (giornalisti, commentatori televisivi) che devono assicurarsi circa la fonte, la qualità del dato e il suo corretto utilizzo, e proseguendo con gli istituti che realizzano i sondaggi che possono agevolare la comprensione delle loro stime, prevenendo il rischio di lettura imprudente con avvertenze accanto ai dati che hanno livelli di significatività inadeguati.
— — — —
Abbiamo bisogno del tuo contributo per continuare a fornirti una informazione di qualità e indipendente.