Meta: documenti rivelano l’uso di opere protette da copyright per l’IA

da | 22 Feb 2025 | IA, Legal

Mark Zuckerberg | Foto: xAI
Tempo di lettura: 3 minuti

Meta avrebbe utilizzato opere protette da copyright per addestrare i propri modelli di intelligenza artificiale, ricorrendo a strategie legalmente discutibili e discutendone apertamente nei suoi canali interni.

È quanto emerge da una serie di documenti giudiziari desecretati giovedì, nell’ambito della causa Kadrey v. Meta, una delle numerose battaglie legali in corso negli Stati Uniti sul tema del copyright nell’IA.

Le nuove rivelazioni mostrano conversazioni interne tra i dipendenti dell’azienda, i quali sembrano aver discusso apertamente l’uso di libri protetti senza autorizzazione, talvolta adottando un approccio spregiudicato.

“Meglio chiedere perdono che permesso”

In una chat risalente al febbraio 2023, Xavier Martinet, ingegnere di ricerca di Meta, scriveva: “Il mio parere sarebbe (seguendo la logica del ‘meglio chiedere perdono che permesso’): proviamo a ottenere i libri e poi lasciamo la decisione ai dirigenti”.

Illuminanti anche i commenti di Melanie Kambadur, senior manager del team di ricerca sui modelli Llama, che ha discusso dell’addestramento dei modelli su opere di dubbia legalità.

A Martinet che scriveva “Voglio dire, nel peggiore dei casi scopriamo che alla fine va bene, mentre un’infinità di startup ha già piratato tonnellate di libri su BitTorrent”, la Kambadur rispondeva: “[Il] mio parere: cercare di fare accordi direttamente con gli editori richiede troppo tempo…”

“Dobbiamo sicuramente ottenere licenze o approvazioni per i dati pubblicamente disponibili”, poi però aggiungeva che “ora abbiamo più soldi, più avvocati, più supporto per il business development, la possibilità di accelerare i processi per guadagnare tempo, e gli avvocati sono un po’ meno conservatori nelle approvazioni”,

L’ombra di Libgen e la competizione nell’IA

Uno degli aspetti più controversi riguarda il possibile utilizzo di Libgen, un noto archivio di libri piratati, già oggetto di diverse cause legali e sanzioni per decine di milioni di dollari.

Dai documenti emerge che alcuni dirigenti di Meta ritenevano l’accesso a queste risorse “essenziale per raggiungere numeri SOTA (state-of-the-art) in tutte le categorie”.

Sony Theakanath, direttore della gestione prodotti di Meta, avrebbe suggerito delle strategie per ridurre il rischio legale, tra cui l’eliminazione dei file contrassegnati come “rubati” o “piratati”, oltre alla mancata citazione pubblica dell’uso di dataset provenienti da Libgen.

L’idea era chiara: attingere a fonti non autorizzate senza esporsi troppo.

Non solo: dalle chat emergono riferimenti a Reddit come possibile fonte di dati per l’addestramento, forse tramite l’uso di strumenti di terze parti. Questo nonostante Reddit abbia dichiarato, nell’aprile 2023, di voler far pagare le aziende di IA per l’accesso ai suoi contenuti.

Meta alza la posta e si prepara alla battaglia legale

Di fronte alle accuse, Meta ha rafforzato la propria squadra legale, assumendo due avvocati esperti di contenziosi presso la Corte Suprema dallo studio Paul Weiss.

L’azienda ha sempre sostenuto che l’uso di opere protette da copyright per addestrare i suoi modelli rientri nel concetto di fair use, ma la posizione dei querelanti – tra cui gli scrittori Sarah Silverman e Ta-Nehisi Coates – è diametralmente opposta.

Nel frattempo, emergono dettagli su come Meta abbia valutato l’opportunità di siglare accordi con gli editori. Secondo i documenti, l’azienda avrebbe confrontato i libri piratati con quelli disponibili per la licenza, per decidere se valesse la pena investire in un accordo ufficiale.

Quanto raccontato finora è l’ulteriore tassello che bene illustra come le grandi aziende \tecnologiche stiano affrontando la sfida dell’addestramento delle IA, spesso muovendosi in una zona grigia tra etica, business e regolamentazione.

E scalfisce, una volta di più, l’immagine di Zuckerberg, che tra Cambridge Analytica, lo scandalo di Snapchat e ora questo, è ormai coinvolto in troppe situazioni torbide perché si tratti di sfortunate circostanze.

POTREBBE INTERESSARTI

Elon Musk xAI Cursor
, • ⏱ 2 min

SpaceX compra Cursor per 60 miliardi e sfida Anthropic e OpenAI sul coding

L’operazione, interamente in azioni, arriva pochi giorni dopo la quotazione più grande della storia e punta ai clienti aziendali che finora hanno snobbato...
cover manageengine
, • ⏱ 5 min

Cyber resilience: la survey di ManageEngine indica un’Italia a metà del guado

Presentata a Milano insieme ai numeri del Clusit, la ricerca fotografa aziende italiane brave a rilevare gli incidenti entro 24 ore ma lente a ripristinare...
Apple AGCOM
• ⏱ 3 min

L’AGCM indaga Apple sul cloud, è la prima volta in Italia

È la prima volta che il garante della concorrenza usa i poteri del DMA. Al centro il backup integrale dei dispositivi, che solo il servizio di Cupertino può...
apple unione europea siri ai 2
, • ⏱ 3 min

Siri AI non arriva su iPhone in Europa: Apple e Bruxelles si rimpallano la colpa

Per l’azienda l’interoperabilità del DMA significa dare ai rivali accesso a messaggi, foto e file degli utenti. Per Bruxelles è Apple a non aver presentato...
Sundar Pichai Stanford studenti2
, • ⏱ 3 min

Stanford, circa 200 laureati lasciano il discorso di Pichai

L’uomo simbolo dell’intelligenza artificiale tiene un discorso di laurea senza mai nominarla. Ma i laureati protestano per la fornitura di tecnologia al...
Mark Zuckerberg Meta
, • ⏱ 5 min

Meta ha speso miliardi sull’IA. Ora Zuckerberg deve convincere Wall Street

Dopo Scale AI, Muse Spark e la nuova unità Applied AI, Meta è tornata nella partita dell’intelligenza artificiale. Ma tra sviluppatori freddi, morale interno basso e il...
Andy Jassy Amazon Anthropic
, , • ⏱ 5 min

La soffiata su Anthropic è arrivata da Amazon (che ci ha investito miliardi)

Andy Jassy ha segnalato al Tesoro che i suoi avevano aggirato i freni di Fable 5. Amazon è la stessa azienda che in Anthropic ha investito miliardi, le fornisce i chip...
PI DAY Celonis Mauro Terraneo_Regional Managing Director Celonis Italia
• ⏱ 5 min

Celonis vuole dare un contesto all’IA delle aziende

Al PI Day di Milano, la società ha mostrato come la Process Intelligence può aiutare gli agenti IA a lavorare sui processi reali. Dai sinistri Unipol alla supply chain...
Dario Amodei Anthropic
, • ⏱ 3 min

Anthropic ha detto che la sua IA è troppo pericolosa. Il governo USA l’ha presa in parola

Washington cita la sicurezza nazionale e un presunto jailbreak, e blocca i modelli Fable 5 e Mythos 5. Anthropic ribatte che la falla è circoscritta e già presente in...
Arthur Mensch Mistral
, • ⏱ 2 min

Mistral raddoppia a 20 miliardi, ma resta lontana da OpenAI e Anthropic

La startup francese raddoppia la valutazione di settembre, ma compete con una frazione del capitale di OpenAI (852 mld) e Anthropic (965 mld). Dietro il campione...
Share This