La notizia era nell’aria e, dopo alcune settimane di trepidante attesa, il mondo ha accolto in estasi GPT-4, la nuova versione del Large Language Model di OpenAI. La principale novità del modello è rappresentata dalla sua natura multimodale: oltre al linguaggio, GPT-4 è in grado di processare immagini, video e suoni (l’output è però ancora solo testuale e anche le modalità non linguistiche sono in fase di test).
Nell’attesa di chattare con il sistema (occorre passare per una waiting list) è possibile sfogliare il “GPT-4 Technical report” pubblicato da OpenAI ed egregiamente analizzato da Yannic Kilcher sul suo canale Youtube.
La prima cosa che colpisce leggendo il report è la dimensione ingegneristica del progetto: la lista degli autori comprende una cinquantina di persone, organizzate in una struttura articolata e complessa: i nomi più significativi sono quelli di Greg Brockman (presidente) e di Wojciech Zaremba (leader del language team). Siamo in un’altra dimensione rispetto ai tipici progetti di ricerca, ERC ad esempio, che elargiscono un budget di qualche milione di euro a un team di 4-5 persone. Se le cose non cambiano, la ricerca in ambito universitario sarà relegata a occuparsi di curiosità accademiche.
Un secondo aspetto messo in evidenza da Kilcher è la trasformazione di OpenAI da organizzazione di ricerca a realtà aziendale orientata al business, interessata a realizzare prodotti da lanciare sul mercato. La “democratizzazione” della AI è sparita dal radar, insieme ai dettagli tecnici necessari per replicare il modello a beneficio dell’intera comunità scientifica. Il report è un documento di marketing, scritto per i potenziali clienti, privo di informazioni che potrebbero avvantaggiare la concorrenza.
Per quanto riguarda la performance, sempre stando al paper, GPT-4 è una versione migliorata del predecessore GPT-3.5 (la piattaforma su cui si basa ChatGPT). I risultati in vari test umani posizionano il modello sui livelli più alti delle graduatorie. Secondo Kilcher, il miglioramento sarebbe da attribuire a un aumento del tempo di training più che a crescita dimensionale del modello (i famosi “parametri”). Anche le capacità di ragionamento logico sembrerebbero migliorate, ma non al punto da escludere strafalcioni occasionali.
L’avvento di GPT-4 offre l’occasione per fare qualche riflessione di carattere più generale sui Large Language Models (LLM). Lo tsunami di eccitazione (“hype”) che gli LLM hanno prodotto è stata seguito da un’onda di critiche, che possono essere cosi riassunte: 1) sono solo modelli statistici; 2) sono tossici e pericolosi; 3) sono intrinsecamente limitati. Proviamo ad analizzare questi argomenti.
ChatGPT è stato definito un “pappagallo statistico”, addestrato a predire la parola successiva a partire dal contesto, senza realmente capirne il significato. Vero. E potenzialmente vero anche per il cervello umano, i cui meccanismi di apprendimento sono ancora avvolti nel mistero. Secondo Ilya Sutskever, chief scientist di OpenAI, la capacità di prevedere la parola successiva dovrebbe fare emergere l’intelligenza: per indovinare il nome dell’assassino nell’ultimo capitolo di un romanzo poliziesco è necessario comprendere la dinamica del delitto.
Secondo una definizione della astrofisica Sabine Hossenfelder, capire equivale a disporre di una regola che consente di generare l’output corretto per ogni possibile input (mentre imparare a memoria significa memorizzare un certo numero di coppie di input-output). Ma estrarre pattern dai dati è esattamente il punto di forza delle reti neurali. L’accusa di essere un pappagallo sembrerebbe quindi ingenerosa, anche se i pattern estratti dalle reti attuali sono sicuramente a un livello più superficiale rispetto al cervello umano.
Passiamo all’accusa di pericolosità. Gli LLM possono occasionalmente produrre contenuti sessisti, razzisti o pericolosi, dare consigli su come fabbricare bombe all’idrogeno in garage o innamorarsi di utenti già fidanzati. Negli ultimi mesi abbiamo assistito ai tentativi, da parte di molti giornalisti e altri utenti, di indurre in tentazione il modello di turno con provocazioni varie, per poi accusarlo di essere imperfetto. È quello che gli essere umani fanno abitualmente anche con i propri simili: un comportamento che rivela qualcosa sulla pericolosità della nostra specie, più che su quella del modello, peraltro piuttosto contenuta.
Veniamo infine all’ultima tipologia di critiche, secondo cui gli LLM avrebbero dei limiti intrinseci: sarebbero in grado di riprodurre cose già note, ma non di essere creativi. Ebbene, io credo che sia vero esattamente il contrario: la mente umana è intrinsecamente limitata, essenzialmente dalla dimensione della scatola cranica. La AI invece, non ha limiti: possiamo aumentare i parametri del modello con un colpo di mouse. I limiti di oggi possono essere superati con la prossima release. GPT-4 supera un esame per avvocati piazzandosi nel 10% dei migliori, mentre GPT-3.5 era nel 10% dei peggiori: sono passati tre mesi.
Cosa ci riserva il futuro? Secondo Elon Musk, rispetto a una AI degna di questo nome, gli esseri umani avranno lo stesso status degli animali. Alcuni animali, i gatti ad esempio, sono fortunati perché piacciono agli esseri umani. Altri animali se la passano meno bene. I ricercatori che hanno creato GPT sono sicuramente persone molto brillanti. Ma pensare di creare un’intelligenza molto superiore a quella umana, illudendosi poi di controllarla, non sembra un’idea particolarmente geniale. Nel frattempo, godiamoci lo spettacolo.
— — — —
Abbiamo bisogno del tuo contributo per continuare a fornirti una informazione di qualità e indipendente.
SOSTIENICI. DONA ORA CLICCANDO QUI