OpenAI sotto accusa: i suoi modelli ‘ricordano’ contenuti protetti da copyright

da | 6 Apr 2025 | IA, Legal

Un nuovo studio firmato da un gruppo internazionale di ricercatori riapre un fronte delicato per OpenAI, la società creatrice di ChatGPT, mettendo in discussione la liceità dei dati utilizzati per addestrare i suoi modelli di intelligenza artificiale.

Secondo i risultati pubblicati, GPT-4 e GPT-3.5 sarebbero in grado di ricordare — e in certi casi riprodurre — interi passaggi di opere coperte da copyright, comprese fiction letterarie e articoli del New York Times.

Come si misura la “memoria” delle AI

Gli scienziati hanno utilizzato un approccio indubbiamente originale per identificare potenziali contenuti memorizzati dai modelli.

I cosiddetti Large Language Models, come quelli sviluppati da OpenAI, funzionano infatti come motori predittivi: apprendono dai dati per anticipare quali parole o immagini verranno dopo.

Non producono semplicemente copie identiche del materiale su cui sono stati addestrati ma imparano a riconoscere schemi. Però, proprio per il modo in cui “imparano”, può capitare che memorizzino passaggi interi del materiale usato in fase di training.

Per testare questa possibilità, i ricercatori hanno lavorato su un’idea semplice ma efficace: rimuovere da alcune frasi parole ad “alta sorpresa”, ossia termini che, in un dato contesto, sono statisticamente improbabili.

Un esempio? In una frase come “Jack ed io stavamo perfettamente immobili con il radar che ronzava”, la parola “radar” è meno prevedibile di altre come “motore” o “radio”. Se un modello riesce comunque a indovinare la parola mancante, è un indizio forte che quel passaggio sia stato memorizzato.

Applicando questo metodo a frammenti di romanzi e articoli giornalistici, gli studiosi hanno scoperto che GPT-4 riusciva a completare correttamente molti di questi test.

Il risultato suggerisce che abbia immagazzinato parti di testi inclusi nel suo set di addestramento, tra cui opere letterarie coperte da copyright e contenuti di testate giornalistiche.

OpenAI tra “fair use” e pressing politico

Queste rivelazioni alimentano il fuoco di una battaglia legale già in corso. OpenAI è stata infatti citata in giudizio da autori, programmatori e altri creatori che accusano l’azienda di aver sfruttato il loro lavoro senza autorizzazione.

La società, da parte sua, continua a sostenere che l’utilizzo rientri nel concetto di “fair use” previsto dalla normativa statunitense. Ma i querelanti contestano che la legge sul copyright USA non preveda alcuna eccezione esplicita per i dati di addestramento delle intelligenze artificiali.

OpenAI ha avviato alcune collaborazioni con degli editori e ha predisposto un sistema di opt-out che consente agli autori di escludere le proprie opere dal training.

Ma la società si sta anche muovendo sul fronte politico, facendo pressione su diversi governi affinché si introducano norme che rendano legittimo, in modo strutturato, l’uso di dati protetti per lo sviluppo dei modelli.

“Serve più trasparenza sull’origine dei dati”

Abhilasha Ravichander, dottoranda e co-autrice dello studio, ha dichiarato a TechCrunch che “per avere modelli linguistici affidabili, servono sistemi che possano essere analizzati, verificati, esaminati in modo scientifico”.

Secondo la ricercatrice, “il nostro lavoro punta a fornire uno strumento per indagare questi modelli, ma serve una trasparenza molto maggiore su quali dati vengano effettivamente utilizzati”.

La questione non è solo tecnica ma culturale e politica. Se i modelli linguistici diventano parte integrante della nostra quotidianità — nei motori di ricerca, nei chatbot, nelle piattaforme di scrittura — allora è fondamentale sapere da dove provengono le loro competenze.

E se quelle competenze derivano da contenuti protetti da copyright, il dibattito sul loro uso non potrà che farsi sempre più acceso.

POTREBBE INTERESSARTI

adolescenti

Gli adolescenti americani e la nuova dipendenza dai chatbot IA

Dati, divari sociali e rischi emotivi nella fotografia del Pew Research Center sull’utilizzo dell’IA tra gli adolescenti USA.

google

Google sotto indagine dell’UE per AI Overviews e YouTube

La Commissione indaga sull’uso dei contenuti editoriali e dei video YouTube per addestrare Gemini. Google parla di rischio per l’innovazione mentre cresce la tensione...
Donald Trump Nvidia

Trump apre all’H200 verso la Cina (ma chiede a Nvidia un ‘pizzo’ del 25%

Il presidente degli Stati Uniti autorizza l’export del chip di fascia alta di Nvidia in cambio di una quota senza precedenti: un compromesso tra geopolitica, mercato e...
Cina qwen deepseek

La Cina accelera sull’open source: ora vale il 30% dell’utilizzo dell’IA

Un report di OpenRouter mostra l’ascesa dei modelli cinesi nonostante le restrizioni USA su Nvidia e AMD.

X social commissione europea

X disattiva l’account pubblicitario della Commissione Europea

Il social accusa la Commissione di aver manipolato la piattaforma per amplificare la portata del post sulla multa. Bruxelles respinge ogni addebito.

Arvind Krishna IBM

Il CEO di IBM avverte: “la corsa ai data center non potrà ripagarsi”

Secondo Arvind Krishna i costi attuali dell’infrastruttura rendono impossibile rientrare dai trilioni investiti nella potenza di calcolo.

silicon valley agenti ia

La Silicon Valley clona Amazon e Gmail per addestrare gli agenti IA

Start-up finanziate dai big del venture capital ricostruiscono i siti più usati al mondo per insegnare agli agenti digitali a navigare, prenotare, compilare e...
Zuckerberg Meta glasses

Meta valuta tagli fino al 30% al budget del Metaverso per il 2026

Meta starebbe considerando di ridurre del 30% il budget assegnato ai suoi sforzi per il metaverso nel 2026, così da allocare più risorse all’IA.

Cristiano Ronaldo e il CEO di Perplexity

Cristiano Ronaldo investe in Perplexity AI

Cristiano Ronaldo ha deciso di investire in Perplexity AI e di entrare a gamba tesa nel business dell’intelligenza artificiale.

WhatsApp

UE avvia un’indagine antitrust su Meta per l’uso dell’IA in WhatsApp

La Commissione Europea ha avviato un’indagine antitrust su Meta riguardo all’integrazione di funzionalità IA all’interno di WhatsApp.

Share This