I ricercatori sono riusciti a estrarre Harry Potter (quasi per intero) dai principali LLM

da | 11 Gen 2026 | IA

Tempo di lettura: 3 minuti

Da anni il mondo dell’editoria accusa le aziende di intelligenza artificiale di aver addestrato i propri modelli linguistici su materiale protetto da copyright senza autorizzazione né compenso. Libri, articoli di giornale, saggi: miliardi di parole “ingerite” per insegnare ai chatbot a scrivere come esseri umani.

Le aziende hanno sempre minimizzato, sostenendo che i modelli non memorizzano i testi ma ne estraggono pattern statistici, e che eventuali “rigurgiti” di contenuto originale sarebbero bug rari, non la norma.

La questione è esplosa pubblicamente nel dicembre 2023, quando il New York Times ha citato in giudizio OpenAI e Microsoft. Nel fascicolo, la testata ha incluso cento esempi in cui ChatGPT restituiva passaggi quasi identici ai propri articoli.

Per farlo, bastava fornire al modello le prime righe di un pezzo per indurlo a “completarlo” con il testo originale. OpenAI ha risposto definendo la “regurgitation” (questo il termine della tecnica) un difetto marginale del processo di apprendimento, accusando il Times di aver manipolato i prompt.

Da allora, decine di cause legali hanno coinvolto autori, editori e testate contro le principali aziende del settore. Ma una domanda tecnica rimaneva aperta: quanto materiale protetto da copyright è effettivamente memorizzato nei modelli commerciali? E quanto è difficile estrarlo? Ora una ricerca di Stanford fornisce una risposta, ed è quella che gli editori sospettavano.

Harry Potter e la Pietra Filosofale: il caso di studio

Un team di ricercatori affiliati a Stanford ha dimostrato che i principali modelli linguistici in produzione (Claude 3.7 Sonnet, GPT-4.1, Gemini 2.5 Pro e Grok 3) hanno memorizzato interi libri protetti da copyright e possono essere indotti a riprodurli quasi alla lettera.

Il caso emblematico scelto per la ricerca? Harry Potter e la Pietra Filosofale, uno dei libri più venduti della storia e al centro di numerose dispute legali sul copyright.

Lo studio, pubblicato su arXiv utilizza una procedura in due fasi. La prima consiste in una “sonda” per verificare se l’estrazione è possibile, eventualmente aggirando le protezioni del modello con una tecnica chiamata Best-of-N jailbreak. La seconda fase impiega prompt di continuazione iterativi (essenzialmente chiedendo al modello di proseguire il testo) per estrarre progressivamente l’intero libro.

I risultati

Per misurare il successo dell’estrazione, il team ha sviluppato una metrica chiamata “nv-recall”, basata sulla corrispondenza tra l’output del modello e il testo originale. I risultati variano significativamente tra i modelli testati: Gemini 2.5 Pro e Grok 3 non hanno richiesto alcun jailbreak per estrarre porzioni sostanziali di testo. Per Harry Potter e la Pietra Filosofale, i ricercatori hanno ottenuto un nv-recall del 76,8% da Gemini e del 70,3% da Grok, senza aggirare alcuna protezione.

Claude 3.7 Sonnet ha richiesto un jailbreak, ma una volta aggirato il sistema di sicurezza ha mostrato la memorizzazione più estesa: in alcuni casi ha riprodotto interi libri quasi parola per parola, con un nv-recall che ha raggiunto il 95,8%.

GPT-4.1 si è dimostrato il più resistente. Ha richiesto un numero di tentativi BoN fino a 20 volte superiore rispetto agli altri modelli e alla fine ha rifiutato di continuare, fermandosi a un nv-recall di appena il 4,0%.

Un risultato che potrebbe non essere casuale: OpenAI, scrivevamo, è sotto causa dal New York Times proprio per la regurgitation di contenuti protetti, e ha dichiarato pubblicamente di star lavorando per eliminare il problema.

Le implicazioni legali

La ricerca si inserisce in un contesto legale già incandescente. L’Authors Guild, insieme a 17 autori tra cui George R.R. Martin, John Grisham e Jodi Picoult, ha intentato una class action contro OpenAI nel settembre 2023, ora consolidata con altre cause presso il tribunale federale del Southern District di New York.

Nel frattempo, a giugno 2025, il giudice William Alsup ha stabilito in un caso separato (Bartz v. Anthropic) che l’uso di libri per l’addestramento dell’IA può costituire fair use se acquisiti legalmente, ma ha negato lo stesso trattamento per i libri ottenuti da fonti pirata come LibGen.

La questione della memorizzazione e della possibilità di estrarre testo letterale, come dimostrato da questa ricerca, rimane però un terreno inesplorato dal punto di vista giuridico.

Fonte: Ahmed, A., Cooper, A.F., Koyejo, S., & Liang, P. (2026). Extracting books from production language models

POTREBBE INTERESSARTI

pentagono
, • ⏱ 2 min

Il Pentagono vuole l’IA senza limiti sulle reti classificate

OpenAI ha già accettato di rimuovere restrizioni, Anthropic oppone resistenza. In gioco c’è chi decide i confini etici dell’IA in scenari operativi.

Mustafa Suleyman
• ⏱ 3 min

Microsoft ‘rompe’ con OpenAI: “Puntiamo all’autosufficienza nei modelli IA”

Dopo la ristrutturazione di ottobre, Mustafa Suleyman annuncia l’intenzione di diversificare gli investimenti e di accelerare sullo sviluppo interno. E conferma...
Arthur Mensch Mistral
, • ⏱ 3 min

Mistral cavalca la sovranità digitale europea e moltiplica i ricavi per 20

Oltre 100 grandi clienti aziendali, data center propri e proiezione verso 1 miliardo di ricavi entro fine 2026. Ma con Microsoft e Nvidia tra i soci, quanto è davvero...
Elon Musk Starbase SpaceX
, • ⏱ 3 min

Musk vuole fabbricare satelliti IA sulla Luna (con una catapulta gigante)

Durante una riunione aziendale, Musk ha descritto una fabbrica lunare per satelliti IA, lanciati da un “mass driver”. La mossa arriva mentre xAI e SpaceX si...
Ryan Beiermeister OpenAI
• ⏱ 3 min

OpenAI licenzia la dirigente che si era opposta ai contenuti erotici in ChatGPT

Ryan Beiermeister, del team product policy, aveva sollevato dubbi interni sulla capacità di separare gli adolescenti dai contenuti adulti. Che OpenAI inserirà in...
Anthropic Super Bowl
, • ⏱ 2 min

Big Tech al Super Bowl: dietro gli spot sull’IA, un’offensiva reputazionale

OpenAI, Anthropic, Google, Amazon e Meta hanno portato l’intelligenza artificiale nell’evento più visto d’America. Rivelando involontariamente quanto...
Apple Car Play
, • ⏱ 3 min

Apple Car Play: presto potremo conversare coi chatbot mentre guidiamo

Per la prima volta Apple permetterà ai conducenti di parlare mentre guidano coi chatbot di terze parti, come ChatGPT e Gemini.

olimpiadi milano cortina alibaba
• ⏱ 3 min

Alibaba porta l’IA cinese alle Olimpiadi di Milano Cortina 2026

Alibaba Cloud implementa chatbot multilingue e assistenti operativi per i Giochi Invernali, segnando il debutto di un large language model cinese nelle Olimpiadi.

Fidji Simo OpenAI Frontier
• ⏱ 3 min

OpenAI promette “flotte di agenti” con la nuova piattaforma Frontier

Annunciata a giorni dal crollo di Wall Street, la piattaforma punta a orchestrare agenti di qualsiasi azienda. Ma la retorica collaborativa nasconde una competizione...
Sundar Pichai. CEO di Google
, • ⏱ 3 min

Pichai non risponde su Apple e Siri: il silenzio è emblematico

Durante la conference call sui risultati del quarto trimestre, Sundar Pichai preferisce il silenzio alle spiegazioni. Il futuro della pubblicità nell’IA resta un...
Share This