Esistono fondamentalmente due tipi di Intelligenza Artificiale (IA): IA debole e IA forte. Con il termine “IA debole” si intende un algoritmo progettato per risolvere un problema specifico. La IA Forte, altresì nota con l’acronimo AGI (“Artificial General Intelligence”), è invece la capacità di un agente artificiale di riprodurre tutte le funzioni della mente umana. Stile “Terminator” per intenderci, senza intenzioni necessariamente malevole e tralasciando il dibattito filosofico sulla coscienza.
Siamo ormai abituati da tempo a convivere con pezzi più o meno utili di IA debole (traduzioni automatiche, riconoscimento di immagini, chatbot) ed è abbastanza chiaro che soltanto una AGI di livello elevato sarà in grado di darci una mano con i problemi pratici che ci affliggono: lavori pericolosi, cura degli anziani, guida autonoma. I relativi rischi e le implicazioni psicologiche e sociali sono altrettanto evidenti. A che punto siamo, quindi, con la AGI?
Come ebbe a dire il fisico Niels Bohr, è molto difficile fare previsioni, soprattutto riguardo al futuro… C’è chi dice “entro 20 anni” o “non prima del 2050”. Nel 1896 l’ingegnere tedesco Otto Lilienthal perse la vita schiantandosi al suolo con il suo aliante, nel corso di uno dei tanti esperimenti. La conquista del volo sembrava un sogno lontano, ma la svolta era nell’aria (letteralmente, in questo caso): il 17 dicembre 1903, l’impresa dei fratelli Wright proiettò l’umanità nella dimensione del volo artificiale.
Nel caso della AGI, l’attacco al problema viene portato lungo diverse direttrici. Allo stato attuale, la strategia più promettente sembra essere rappresentata dai cosiddetti “language models”. Si tratta di algoritmi che ricevono in ingresso una sequenza di parole (“tanto va la gatta al”) e cercano di prevedere le parole successive (=> “lardo, che ci lascia ….”). Quando Google completa la frase che stiamo scrivendo, lo fa grazie a un language model. Il meccanismo di base rende possibile la soluzione di un insieme variegato di task linguistici di alto livello: traduzione, domande e risposte, gestione di un dialogo.
La progressione dei language models inizia nel 2013, con l’algoritmo “word2vec” di Google, che trasforma le parole in vettori numerici, e prosegue con l’impiego di reti neurali ricorsive sempre più sofisticate per processare l’informazione: “vanilla” RNN, LSTM, GRU. Ma la svolta decisiva avviene nel 2017, quando un team di ricerca di Google pubblica l’articolo “Attention is all you need”, in cui viene proposto un nuovo tipo di rete neurale, battezzato “transformer”. L’innovazione consiste in un meccanismo noto come “attenzione”, che consente alla rete di focalizzarsi sulle parti più rilevanti per i vari task linguistici.
Questa scoperta ha impartito al progresso un’accelerazione incredibile. Un esempio è costituito dal programma GPT-3 di OpenAI, un gigantesco tranformer con 175 miliardi di parametri, addestrato su un corpus linguistico altrettanto enorme. GPT-3 è in grado, tra le altre cose, di generare testi complessi e articolati, la cui qualità li rende spesso indistinguibili dai prodotti dell’ingegno umano. Correva l’anno 2020, ma il 2022 ci sta riservando sorprese ancora più incredibili.
A febbraio è apparso PALM di Google, un transformer in grado di “spiegare” barzellette e battute umoristiche. A marzo è stato il turno di AlphaCode di DeepMind, in grado di risolvere problemi informatici formulati in linguaggio naturale, a un livello superiore al 50% dei programmatori umani (il metodo contiene un po’ di trucchi, su cui è lecito chiudere un occhio, considerando l’estrema difficoltà del problema). A maggio è arrivato IMAGEN di Google, in grado di generare immagini estremamente realistiche di scenari complessi, a partire da una descrizione testuale (“un cervello che cavalca un missile in viaggio verso la luna”).
Secondo Jeff Dean, capo della ricerca AI di Google, ci sono tre problemi che impediscono alle reti neurali di chiudere la partita: 1) mancanza di generalità (le reti neurali attuali sono focalizzate su task specifici); 2)specializzazione per una determinata modalità di input (testo, immagini, suoni); 3) incapacità di riutilizzare le conoscenze acquisite per risolvere nuovi task. O forse si potrebbe dire: “C’erano tre problemi”.
Il 12 maggio DeepMind ha infatti presentato al mondo “GATO: un agente generalista”, che promette appunto di risolvere i problemi suddetti. L’agente è in grado di gestire un flusso sensoriale eterogeneo: testi e immagini vengono frullati in “tokens” e dati in pasto a una singola rete neurale, in grado di eseguire 600 task diversi: interazioni linguistiche di vario genere, comprensione di immagini, manipolazione di oggetti.
Secondo Nando de Freitas, direttore del gruppo di Machine Learning di DeepMind, “the game is over”: a questo punto si tratta solo di aumentare la dimensione di GATO (attualmente al livello di prototipo), ottimizzare i parametri e dotare il cervello di un corpo robotico, in grado di interagire con l’ambiente. Di fatto, GATO è già una AGI, seppure di livello ancora sub-umano.
Volendo credere a De Freitas (non tutti i suoi colleghi sono d’accordo) esistono tuttavia – mi permetto di far notare – ancora un paio di questioni da risolvere. La prima fa riferimento alla scarsa comprensione del funzionamento interno delle reti neurali: questo si traduce nell’impossibilità di certificare il buon funzionamento di questi algoritmi, il che, ovviamente, non è simpatico. Questo problema è però comune anche al cervello umano: nessuna procedura è in grado di garantire che l’autista di autobus o il pilota di aereo non commetteranno errori.
Il secondo problema riguarda i cosiddetti “adversarial examples”: le reti neurali vengono indotte in errore da piccole variazioni dei dati, che gli esseri umani sono in grado di ignorare. L’esistenza degli adversarial examples, per quasi tutti i tipi di dati, può essere un’indicazione che le reti neurali percepiscono il mondo in un modo diverso rispetto agli esseri umani. La comunità scientifica è protesa in uno sforzo collettivo senza precedenti per risolvere questi problemi.
E così, in un mondo distratto dal Covid, dalla guerra e dal prezzo del gas, è iniziata la fase finale dell’ultimo volo di Icaro. L’avvento dell’AGI potrebbe ormai essere questione non di decenni, ma di anni. E in questo momento occorre fare attenzione, perché l’attenzione, ormai lo abbiamo capito anche noi, è fondamentale: “attention is all you need”.
— — — —
Abbiamo bisogno del tuo contributo per continuare a fornirti una informazione di qualità e indipendente.