Da anni il mondo dell’editoria accusa le aziende di intelligenza artificiale di aver addestrato i propri modelli linguistici su materiale protetto da copyright senza autorizzazione né compenso. Libri, articoli di giornale, saggi: miliardi di parole “ingerite” per insegnare ai chatbot a scrivere come esseri umani.
Le aziende hanno sempre minimizzato, sostenendo che i modelli non memorizzano i testi ma ne estraggono pattern statistici, e che eventuali “rigurgiti” di contenuto originale sarebbero bug rari, non la norma.
La questione è esplosa pubblicamente nel dicembre 2023, quando il New York Times ha citato in giudizio OpenAI e Microsoft. Nel fascicolo, la testata ha incluso cento esempi in cui ChatGPT restituiva passaggi quasi identici ai propri articoli.
Per farlo, bastava fornire al modello le prime righe di un pezzo per indurlo a “completarlo” con il testo originale. OpenAI ha risposto definendo la “regurgitation” (questo il termine della tecnica) un difetto marginale del processo di apprendimento, accusando il Times di aver manipolato i prompt.
Da allora, decine di cause legali hanno coinvolto autori, editori e testate contro le principali aziende del settore. Ma una domanda tecnica rimaneva aperta: quanto materiale protetto da copyright è effettivamente memorizzato nei modelli commerciali? E quanto è difficile estrarlo? Ora una ricerca di Stanford fornisce una risposta, ed è quella che gli editori sospettavano.
Harry Potter e la Pietra Filosofale: il caso di studio
Un team di ricercatori affiliati a Stanford ha dimostrato che i principali modelli linguistici in produzione (Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro e Grok 3) hanno memorizzato interi libri protetti da copyright e possono essere indotti a riprodurli quasi alla lettera.
Il caso emblematico scelto per la ricerca? Harry Potter e la Pietra Filosofale, uno dei libri più venduti della storia e al centro di numerose dispute legali sul copyright.
Lo studio, pubblicato su arXiv utilizza una procedura in due fasi. La prima consiste in una “sonda” per verificare se l’estrazione è possibile, eventualmente aggirando le protezioni del modello con una tecnica chiamata Best-of-N jailbreak. La seconda fase impiega prompt di continuazione iterativi (essenzialmente chiedendo al modello di proseguire il testo) per estrarre progressivamente l’intero libro.
I risultati
Per misurare il successo dell’estrazione, il team ha sviluppato una metrica chiamata “nv-recall”, basata sulla corrispondenza tra l’output del modello e il testo originale. I risultati variano significativamente tra i modelli testati: Gemini 2.5 Pro e Grok 3 non hanno richiesto alcun jailbreak per estrarre porzioni sostanziali di testo. Per Harry Potter e la Pietra Filosofale, i ricercatori hanno ottenuto un nv-recall del 76,8% da Gemini e del 70,3% da Grok, senza aggirare alcuna protezione.
Claude 3.7 Sonnet ha richiesto un jailbreak, ma una volta aggirato il sistema di sicurezza ha mostrato la memorizzazione più estesa: in alcuni casi ha riprodotto interi libri quasi parola per parola, con un nv-recall che ha raggiunto il 95,8%.
GPT-4.1 si è dimostrato il più resistente. Ha richiesto un numero di tentativi BoN fino a 20 volte superiore rispetto agli altri modelli e alla fine ha rifiutato di continuare, fermandosi a un nv-recall di appena il 4,0%.
Un risultato che potrebbe non essere casuale: OpenAI, scrivevamo, è sotto causa dal New York Times proprio per la regurgitation di contenuti protetti, e ha dichiarato pubblicamente di star lavorando per eliminare il problema.
Le implicazioni legali
La ricerca si inserisce in un contesto legale già incandescente. L’Authors Guild, insieme a 17 autori tra cui George R.R. Martin, John Grisham e Jodi Picoult, ha intentato una class action contro OpenAI nel settembre 2023, ora consolidata con altre cause presso il tribunale federale del Southern District di New York.
Nel frattempo, a giugno 2025, il giudice William Alsup ha stabilito in un caso separato (Bartz v. Anthropic) che l’uso di libri per l’addestramento dell’IA può costituire fair use se acquisiti legalmente, ma ha negato lo stesso trattamento per i libri ottenuti da fonti pirata come LibGen.
La questione della memorizzazione e della possibilità di estrarre testo letterale, come dimostrato da questa ricerca, rimane però un terreno inesplorato dal punto di vista giuridico.
Fonte: Ahmed, A., Cooper, A.F., Koyejo, S., & Liang, P. (2026). Extracting books from production language models.


