ALLARME C4, PERCHÈ I ‘DATASET’ DELL’INTELLIGENZA ARTIFICIALE SONO A RISCHIO
Nel “vasto mare” delle problematiche e funzioni ancora da chiarire nel futuro dell’intelligenza artificiale un problema più degli altri si affaccia all’orizzonte di tipo più prettamente “etico”: lo mette in luce una lunga inchiesta del Washington Post, citata in questi giorni anche dall’Avvenire, si tratta delle fonti dell’intelligenza artificiale e in particolare la composizione dei “dataset” di informazioni.
Occorre innanzitutto capire di cosa si tratta quando parliamo di C4, ovvero uno dei processi fondamentali che permette a motori di ricerca come Google o Bing di indicizzare un contenuto su internet: “Colossal, Cleaned version of Common Crawl”, questo è letteralmente C4. Capire cosa sia è però un filo più complesso: «un software che analizza i contenuti di una rete (o di un database) in un modo metodico e automatizzato acquisendo una copia testuale di tutti i documenti presenti e creando un indice che ne permetta, successivamente, la ricerca e la visualizzazione», spiega il focus di Avvenire. Va saputo che esiste per l’appunto un “Common Crawl”, un corpus che contiene petabyte di dati raccolti in ben 12 anni di web crawling: la versione ripulita e utilizzata ora dall’intelligenza artificiale di OpenAI (ChatGPT) e tante altre, ottiene le diverse componenti del C4. Il “Washington Post” ha pubblicata di recente un importante warning a riguardo: «il dataset C4 contiene dati proveniente da fonti quali Stormfront, Kiwi Farms, 4chan e altri siti web» considerati dal Governo americano come potenzialmente problematici perché connessi ai mercati della contraffazione e della pirateria. Estremismi politici, fake news, teorie del complotto e quant’altro: tutto viene acquisiti e contenuto nel “mare magnum” del C4.
INCHIESTA WP SU INTELLIGENZA ARTIFICIALE: “RISCHIO COLONIALISMO CULTURALE”
Il problema è che il testo che compone il C4 è di fatto la base che costituisce la fonte principale di «addestramento e di acquisizione di informazioni che le intelligenze artificiali (AI) mostrano di possedere sul mondo, e inevitabilmente influenza il modo in cui ogni AI risponde alle richieste e alle interazioni degli utenti», spiega ancora Avvenire. In attesa di capire come le aziende e gli Stati riusciranno a porre un freno alla diffusione di contenuti così ampiamente falsificati e potenzialmente dannosi, il rischio al momento è che intelligenze artificiali come Gpt-4 possano auto-addestrarsi con migliaia di siti potenzialmente problematici. Google dopo diversi test compiuti sull’intelligenza artificiale ha dichiarato che il C4, la versione ripulita dei dati di Common Crawl, è stato utilizzato per «addestrare alcune AI di alto profilo in lingua inglese, chiamate modelli linguistici di grandi dimensioni, o Llm».
OpenAI invece ancora non ha rivelato quali “dataset” utilizza per addestrare i modelli che supportano il suo popolare chatbot, l’appena tornato attivo in Italia ChatGPT. L’indagine del WP ha rilevato che C4 è in maggior parte dominato da «siti web legati al giornalismo, alla creazione di contenuti, all’intrattenimento e allo sviluppo di software, con patents. google.com, wikipedia. org e scribd.com elencati come primi tre siti». Di contro però i dati di addestramento, le fonti di queste AI provengono anche da siti più discutibili e che quindi in teoria potranno indurre i modelli di intelligenza artificiale a generare testi «indesiderati, razzisti, pornografici, inaffidabili e in generale dannosi», spiega ancora il quotidiano della CEI. Non da oggi uno dei problemi massimi dell’evoluzione di AI è il tema della “scelta” dei dati: la qualità di essi influenza «la qualità e l’affidabilità dei sistemi su cui avviene l’addestramento». Per questo occorre lanciare l’allarme, secondo il WP, circa i possibili effetti del C4 se resterà così: diviene condivisibile dunque la problematica sollevata in ultima analisi da Avvenire, «Dobbiamo chiederci se e come una scelta di cosa includere in C4 non sia di fatto anche un’opzione di natura politica e con severe conseguenze geopolitiche. Di fatto la scelta dei dati è una scelta – una tokenizzazione, per usare un termine tecnico – di una cultura. Questa scelta potrebbe, estremizzando un po’, trasformare il tradizionale softpower culturale esercitato dall’industria dei media e da Hollywood al livello di un vero e proprio colonialismo culturale».