Un nuovo studio firmato da un gruppo internazionale di ricercatori riapre un fronte delicato per OpenAI, la società creatrice di ChatGPT, mettendo in discussione la liceità dei dati utilizzati per addestrare i suoi modelli di intelligenza artificiale.
Secondo i risultati pubblicati, GPT-4 e GPT-3.5 sarebbero in grado di ricordare — e in certi casi riprodurre — interi passaggi di opere coperte da copyright, comprese fiction letterarie e articoli del New York Times.
Come si misura la “memoria” delle AI
Gli scienziati hanno utilizzato un approccio indubbiamente originale per identificare potenziali contenuti memorizzati dai modelli.
I cosiddetti Large Language Models, come quelli sviluppati da OpenAI, funzionano infatti come motori predittivi: apprendono dai dati per anticipare quali parole o immagini verranno dopo.
Non producono semplicemente copie identiche del materiale su cui sono stati addestrati ma imparano a riconoscere schemi. Però, proprio per il modo in cui “imparano”, può capitare che memorizzino passaggi interi del materiale usato in fase di training.
Per testare questa possibilità, i ricercatori hanno lavorato su un’idea semplice ma efficace: rimuovere da alcune frasi parole ad “alta sorpresa”, ossia termini che, in un dato contesto, sono statisticamente improbabili.
Un esempio? In una frase come “Jack ed io stavamo perfettamente immobili con il radar che ronzava”, la parola “radar” è meno prevedibile di altre come “motore” o “radio”. Se un modello riesce comunque a indovinare la parola mancante, è un indizio forte che quel passaggio sia stato memorizzato.
Applicando questo metodo a frammenti di romanzi e articoli giornalistici, gli studiosi hanno scoperto che GPT-4 riusciva a completare correttamente molti di questi test.
Il risultato suggerisce che abbia immagazzinato parti di testi inclusi nel suo set di addestramento, tra cui opere letterarie coperte da copyright e contenuti di testate giornalistiche.
OpenAI tra “fair use” e pressing politico
Queste rivelazioni alimentano il fuoco di una battaglia legale già in corso. OpenAI è stata infatti citata in giudizio da autori, programmatori e altri creatori che accusano l’azienda di aver sfruttato il loro lavoro senza autorizzazione.
La società, da parte sua, continua a sostenere che l’utilizzo rientri nel concetto di “fair use” previsto dalla normativa statunitense. Ma i querelanti contestano che la legge sul copyright USA non preveda alcuna eccezione esplicita per i dati di addestramento delle intelligenze artificiali.
OpenAI ha avviato alcune collaborazioni con degli editori e ha predisposto un sistema di opt-out che consente agli autori di escludere le proprie opere dal training.
Ma la società si sta anche muovendo sul fronte politico, facendo pressione su diversi governi affinché si introducano norme che rendano legittimo, in modo strutturato, l’uso di dati protetti per lo sviluppo dei modelli.
“Serve più trasparenza sull’origine dei dati”
Abhilasha Ravichander, dottoranda e co-autrice dello studio, ha dichiarato a TechCrunch che “per avere modelli linguistici affidabili, servono sistemi che possano essere analizzati, verificati, esaminati in modo scientifico”.
Secondo la ricercatrice, “il nostro lavoro punta a fornire uno strumento per indagare questi modelli, ma serve una trasparenza molto maggiore su quali dati vengano effettivamente utilizzati”.
La questione non è solo tecnica ma culturale e politica. Se i modelli linguistici diventano parte integrante della nostra quotidianità — nei motori di ricerca, nei chatbot, nelle piattaforme di scrittura — allora è fondamentale sapere da dove provengono le loro competenze.
E se quelle competenze derivano da contenuti protetti da copyright, il dibattito sul loro uso non potrà che farsi sempre più acceso.


