OpenAI sotto accusa: i suoi modelli ‘ricordano’ contenuti protetti da copyright

da | 6 Apr 2025 | IA, Legal

Tempo di lettura: 2 minuti

Un nuovo studio firmato da un gruppo internazionale di ricercatori riapre un fronte delicato per OpenAI, la società creatrice di ChatGPT, mettendo in discussione la liceità dei dati utilizzati per addestrare i suoi modelli di intelligenza artificiale.

Secondo i risultati pubblicati, GPT-4 e GPT-3.5 sarebbero in grado di ricordare — e in certi casi riprodurre — interi passaggi di opere coperte da copyright, comprese fiction letterarie e articoli del New York Times.

Come si misura la “memoria” delle AI

Gli scienziati hanno utilizzato un approccio indubbiamente originale per identificare potenziali contenuti memorizzati dai modelli.

I cosiddetti Large Language Models, come quelli sviluppati da OpenAI, funzionano infatti come motori predittivi: apprendono dai dati per anticipare quali parole o immagini verranno dopo.

Non producono semplicemente copie identiche del materiale su cui sono stati addestrati ma imparano a riconoscere schemi. Però, proprio per il modo in cui “imparano”, può capitare che memorizzino passaggi interi del materiale usato in fase di training.

Per testare questa possibilità, i ricercatori hanno lavorato su un’idea semplice ma efficace: rimuovere da alcune frasi parole ad “alta sorpresa”, ossia termini che, in un dato contesto, sono statisticamente improbabili.

Un esempio? In una frase come “Jack ed io stavamo perfettamente immobili con il radar che ronzava”, la parola “radar” è meno prevedibile di altre come “motore” o “radio”. Se un modello riesce comunque a indovinare la parola mancante, è un indizio forte che quel passaggio sia stato memorizzato.

Applicando questo metodo a frammenti di romanzi e articoli giornalistici, gli studiosi hanno scoperto che GPT-4 riusciva a completare correttamente molti di questi test.

Il risultato suggerisce che abbia immagazzinato parti di testi inclusi nel suo set di addestramento, tra cui opere letterarie coperte da copyright e contenuti di testate giornalistiche.

OpenAI tra “fair use” e pressing politico

Queste rivelazioni alimentano il fuoco di una battaglia legale già in corso. OpenAI è stata infatti citata in giudizio da autori, programmatori e altri creatori che accusano l’azienda di aver sfruttato il loro lavoro senza autorizzazione.

La società, da parte sua, continua a sostenere che l’utilizzo rientri nel concetto di “fair use” previsto dalla normativa statunitense. Ma i querelanti contestano che la legge sul copyright USA non preveda alcuna eccezione esplicita per i dati di addestramento delle intelligenze artificiali.

OpenAI ha avviato alcune collaborazioni con degli editori e ha predisposto un sistema di opt-out che consente agli autori di escludere le proprie opere dal training.

Ma la società si sta anche muovendo sul fronte politico, facendo pressione su diversi governi affinché si introducano norme che rendano legittimo, in modo strutturato, l’uso di dati protetti per lo sviluppo dei modelli.

“Serve più trasparenza sull’origine dei dati”

Abhilasha Ravichander, dottoranda e co-autrice dello studio, ha dichiarato a TechCrunch che “per avere modelli linguistici affidabili, servono sistemi che possano essere analizzati, verificati, esaminati in modo scientifico”.

Secondo la ricercatrice, “il nostro lavoro punta a fornire uno strumento per indagare questi modelli, ma serve una trasparenza molto maggiore su quali dati vengano effettivamente utilizzati”.

La questione non è solo tecnica ma culturale e politica. Se i modelli linguistici diventano parte integrante della nostra quotidianità — nei motori di ricerca, nei chatbot, nelle piattaforme di scrittura — allora è fondamentale sapere da dove provengono le loro competenze.

E se quelle competenze derivano da contenuti protetti da copyright, il dibattito sul loro uso non potrà che farsi sempre più acceso.

POTREBBE INTERESSARTI

OpenAI ChatGPT o3-mini
, • ⏱ 3 min

Londra guadagna OpenAI. Ma perde Stargate UK

Il governo Starmer incassa la presenza del più grande laboratorio IA al mondo, eppure fatica ad attrarre l’intelligenza artificiale sul territorio.

Mark Zuckerberg e Meta contro OpenAI
• ⏱ 3 min

Meta realizzerà uno Zuckerberg digitale per parlare coi dipendenti

L’avatar sarà addestrato su tono, modi e strategie del fondatore.

Sam Altman OpenAI Merge Labs
• ⏱ 3 min

Sam Altman risponde all’articolo “incendiario” del New Yorker

Il leader di OpenAI, dopo l’assalto alla sua abitazioni, risponde alle pesanti accuse mosse dalla celebre testata americana.

anthropic mythos
• ⏱ 3 min

Anthropic ha convocato dei teologi per insegnare l’etica a Claude

Anthropic ha organizzato un vertice riservato con leader cattolici e protestanti per affrontare le domande che gli ingegneri non riescono a risolvere da soli.

Matt Garman Amazon Web Services AWS
, • ⏱ 3 min

AWS spiega perché puntare sui concorrenti è il suo mestiere

Matt Garman investe in OpenAI e Anthropic ma rassicura tutti: competere coi propri partner è una tradizione di AWS. Ma l’obiettivo è introdurre i modelli...
Peter Steinberger OpenClaw
• ⏱ 3 min

Anthropic sospende l’account del fondatore di OpenClaw

Steinberger ora lavora per OpenAI. Dietro la sospensione lampo, una disputa che riguarda prezzi, agenti e la competizione tra piattaforme.

amodei vs altman openai anthropic
, • ⏱ 3 min

OpenAI all’attacco: nuovi piani e miliardi per la guerra del ‘compute’

Anthropic guadagna terreno, OpenAI risponde su tre fronti: prodotto, infrastruttura e narrazione. Una fila indietro, Meta spende 21 miliardi per non restare...
Aravind Srinivas Perplexity
, • ⏱ 3 min

I ricavi mensili di Perplexity crescono del 50%

Jensen Huang la promuove dal palco, gli editori la citano in giudizio. Ma Perplexity naviga tra endorsement e contenziosi.

Alexandr Wang Meta Muse Spark
• ⏱ 3 min

Meta lancia Muse Spark e riparte da zero nella corsa all’IA

Muse Spark è disponibile gratis, funziona con più agenti in parallelo e punta anche alla salute. Ma la privacy resta un capitolo aperto.

Project Glasswing: Anthropic
• ⏱ 4 min

Project Glasswing: Anthropic e i big tech uniti per la cybersicurezza

Claude Mythos Preview ha scoperto migliaia di falle zero-day, alcune vecchie di decenni. E ora Anthropic lo distribuisce solo a partner selezionati per correre ai...
Share This