Non c’è intelligenza artificiale senza creatività umana. Se i testi elaborati dai software sembrano perfetti, il merito va agli algoritmi che si sono allenati per anni sui libri migliori. Quel che non si sapeva è quali fossero, ma un’inchiesta di The Atlantic ha fatto luce sul grande segreto dei colossi tecnologici. Parliamo di biblioteche digitali, con centinaia di migliaia di libri scritti negli ultimi due decenni, usate per migliorare il linguaggio dell’intelligenza artificiale. Lo si sospettava da tempo, del resto è noto che ChatGPT di OpenAI si allena con libri non più coperti da copyright. Il problema è che la qualità dell’AI è legata inevitabilmente a quella degli input che ricevono.
The Atlantic è riuscito ad addentrarsi in un database di testi in formato digitale e a dimostrare che diverse AI, come Llama e Meta, hanno usato un catalogo di oltre 170mila libri coperti da diritti d’autore per imparare le basi del linguaggio umano e le conoscenze fondamentali per emulare la comprensione del mondo. Si tratta di Books3, una biblioteca che, come riportato da La Stampa, avrebbe anche i romanzi di Elena Ferrante. Una lista creata da uno sviluppatore indipendente, Shawn Presser, il quale ha ammesso di averla create per fornire un database di qualità per chi genera l’intelligenza artificiale, così da non lasciare tutto nelle mani dei grandi colossi. Ma questo catalogo virtuale sarebbe finito anche nelle mani di Meta, e il problema riguarda i copyright. Infatti, la società di Mark Zuckerberg è stata citata in giudizio per violazione del diritto d’autore.
INTELLIGENZA ARTIFICIALE, SCRITTORI FANNO CAUSA A META
L’accusa di Sarah Silverman, Richard Kadrey e Christopher Golden muoveva dal sospetto legato ad alcune risposte del software, poi è emerso che le loro opere erano in quel catalogo. Quel database contiene anche centinaia di migliaia di video di YouTube, pagine di enciclopedie e mail aziendali. Dei 170mila libri usati per allenare l’intelligenza artificiale, un terzo sono romanzi, il resto sono saggi. Per gli autori che hanno denunciato Meta sono testi rubati. Invece, Meta ritiene che l’uso di quei testi rientri nel diritto all’uso equo, legge che permette l’utilizzo di testi anche se protetti da copyright, riproducendone parti per creare parodie o opere derivate. Quindi, l’AI non replica libri, ma ne produce di nuovi partendo da altri testi, senza danneggiare autori ed editori.
Un tema a dir poco spinoso, che preannuncia uno scontro, visto che autori ed editori si aspettano che il loro lavoro venga tutelato dal diritto d’autore. Arcangelo Rociola su La Stampa accosta Meta, Google e OpenAi a quella «cultura “piratesca” di Internet degli anni Novanta» per la loro convinzione che «online quasi tutto è concesso e la maggiore libertà di accesso possibile alla conoscenza produrrà il massimo beneficio per tutti». Si tratta della stessa cultura che ha portato alla nascita di siti per scaricare musica, libri e film gratis, con un passo in avanti, perché l’intelligenza artificiale non rende disponibili tutti i contenuti, ma li usa per produrne di nuovi.