Meta: documenti rivelano l’uso di opere protette da copyright per l’IA

da | 22 Feb 2025 | IA, Legal

Mark Zuckerberg | Foto: xAI

Meta avrebbe utilizzato opere protette da copyright per addestrare i propri modelli di intelligenza artificiale, ricorrendo a strategie legalmente discutibili e discutendone apertamente nei suoi canali interni.

È quanto emerge da una serie di documenti giudiziari desecretati giovedì, nell’ambito della causa Kadrey v. Meta, una delle numerose battaglie legali in corso negli Stati Uniti sul tema del copyright nell’IA.

Le nuove rivelazioni mostrano conversazioni interne tra i dipendenti dell’azienda, i quali sembrano aver discusso apertamente l’uso di libri protetti senza autorizzazione, talvolta adottando un approccio spregiudicato.

“Meglio chiedere perdono che permesso”

In una chat risalente al febbraio 2023, Xavier Martinet, ingegnere di ricerca di Meta, scriveva: “Il mio parere sarebbe (seguendo la logica del ‘meglio chiedere perdono che permesso’): proviamo a ottenere i libri e poi lasciamo la decisione ai dirigenti”.

Illuminanti anche i commenti di Melanie Kambadur, senior manager del team di ricerca sui modelli Llama, che ha discusso dell’addestramento dei modelli su opere di dubbia legalità.

A Martinet che scriveva “Voglio dire, nel peggiore dei casi scopriamo che alla fine va bene, mentre un’infinità di startup ha già piratato tonnellate di libri su BitTorrent”, la Kambadur rispondeva: “[Il] mio parere: cercare di fare accordi direttamente con gli editori richiede troppo tempo…”

“Dobbiamo sicuramente ottenere licenze o approvazioni per i dati pubblicamente disponibili”, poi però aggiungeva che “ora abbiamo più soldi, più avvocati, più supporto per il business development, la possibilità di accelerare i processi per guadagnare tempo, e gli avvocati sono un po’ meno conservatori nelle approvazioni”,

L’ombra di Libgen e la competizione nell’IA

Uno degli aspetti più controversi riguarda il possibile utilizzo di Libgen, un noto archivio di libri piratati, già oggetto di diverse cause legali e sanzioni per decine di milioni di dollari.

Dai documenti emerge che alcuni dirigenti di Meta ritenevano l’accesso a queste risorse “essenziale per raggiungere numeri SOTA (state-of-the-art) in tutte le categorie”.

Sony Theakanath, direttore della gestione prodotti di Meta, avrebbe suggerito delle strategie per ridurre il rischio legale, tra cui l’eliminazione dei file contrassegnati come “rubati” o “piratati”, oltre alla mancata citazione pubblica dell’uso di dataset provenienti da Libgen.

L’idea era chiara: attingere a fonti non autorizzate senza esporsi troppo.

Non solo: dalle chat emergono riferimenti a Reddit come possibile fonte di dati per l’addestramento, forse tramite l’uso di strumenti di terze parti. Questo nonostante Reddit abbia dichiarato, nell’aprile 2023, di voler far pagare le aziende di IA per l’accesso ai suoi contenuti.

Meta alza la posta e si prepara alla battaglia legale

Di fronte alle accuse, Meta ha rafforzato la propria squadra legale, assumendo due avvocati esperti di contenziosi presso la Corte Suprema dallo studio Paul Weiss.

L’azienda ha sempre sostenuto che l’uso di opere protette da copyright per addestrare i suoi modelli rientri nel concetto di fair use, ma la posizione dei querelanti – tra cui gli scrittori Sarah Silverman e Ta-Nehisi Coates – è diametralmente opposta.

Nel frattempo, emergono dettagli su come Meta abbia valutato l’opportunità di siglare accordi con gli editori. Secondo i documenti, l’azienda avrebbe confrontato i libri piratati con quelli disponibili per la licenza, per decidere se valesse la pena investire in un accordo ufficiale.

Quanto raccontato finora è l’ulteriore tassello che bene illustra come le grandi aziende \tecnologiche stiano affrontando la sfida dell’addestramento delle IA, spesso muovendosi in una zona grigia tra etica, business e regolamentazione.

E scalfisce, una volta di più, l’immagine di Zuckerberg, che tra Cambridge Analytica, lo scandalo di Snapchat e ora questo, è ormai coinvolto in troppe situazioni torbide perché si tratti di sfortunate circostanze.

POTREBBE INTERESSARTI

Grok Elon Musk

Grok, la California ordina lo stop: “Materiale pedopornografico, tolleranza zero”

Il procuratore generale Bonta invia una diffida a Musk mentre l’amministrazione Trump continua a integrare Grok nei flussi di lavoro federali.

Elon Musk OpenAI causa

Causa OpenAI: Musk chiede 134 miliardi di risarcimento

Sam Altman aveva avvisato di “prepararsi al peggio da Musk”, così è stato. La richiesta poggia sul concetto dei “profitti indebiti”.

Trump Chip

Trump firma il dazio del 25% sui chip H200, ma Nvidia ringrazia

La Casa Bianca impone dazi sui semiconduttori di fascia alta in transito verso la Cina. Ma per Nvidia è una vittoria: finalmente può vendere ai clienti cinesi...
Sam Altman OpenAI Elon Musk

Sam Altman avvisa gli investitori: “Preparatevi al peggio da Musk”

In vista del processo di aprile, OpenAI prepara partner e finanziatori: aspettatevi “sparate a effetto” e “dichiarazioni fuori da ogni...
Mira Murati Thinking Machines

Il saccheggio di Thinking Machines: OpenAI si riprende tre co-fondatori

In meno di un anno la startup di Mira Murati perde quattro figure chiave. A quanto pare i soldi non comprano la lealtà neppure nell’industria...
pubblicità IA

La pubblicità bussa alla porta dei chatbot: Google apre, gli altri seguiranno

Il colosso di Mountain View sperimenta annunci in AI Mode. OpenAI e Perplexity osservano, Meta si prepara. E chi non vorrà spot dovrà probabilmente pagare

Brad Smith, presidente di Microsoft

Microsoft promette: i nostri data center non peseranno sulle bollette degli americani

L’azienda si impegna a non chiedere sgravi fiscali e a formare i residenti. Brad Smith: “Non chiediamo ai contribuenti di sovvenzionarci”.

Matthew McConaughey

McConaughey registra sé stesso come marchio contro i deepfake

Otto trademark approvati negli USA trasformano l’immagine dell’attore in un asset legale. Nel vuoto normativo sui deepfake, Hollywood ricorre...
Google AI Overviews

Google rimuove le AI Overviews per alcune ricerche mediche

Un’indagine del Guardian documenta errori potenzialmente letali nei riassunti sanitari del motore di ricerca. Il tempismo col lancio di ChatGPT Health solleva...
Google agente

Google entra nello shopping con gli agenti IA per i retailer

Con Gemini Enterprise for Customer Experience, Big G offre strumenti per costruire assistenti virtuali proprietari. Ma il commercio agentico è davvero dietro...
Share This