Meta avrebbe utilizzato opere protette da copyright per addestrare i propri modelli di intelligenza artificiale, ricorrendo a strategie legalmente discutibili e discutendone apertamente nei suoi canali interni.
È quanto emerge da una serie di documenti giudiziari desecretati giovedì, nell’ambito della causa Kadrey v. Meta, una delle numerose battaglie legali in corso negli Stati Uniti sul tema del copyright nell’IA.
Le nuove rivelazioni mostrano conversazioni interne tra i dipendenti dell’azienda, i quali sembrano aver discusso apertamente l’uso di libri protetti senza autorizzazione, talvolta adottando un approccio spregiudicato.
“Meglio chiedere perdono che permesso”
In una chat risalente al febbraio 2023, Xavier Martinet, ingegnere di ricerca di Meta, scriveva: “Il mio parere sarebbe (seguendo la logica del ‘meglio chiedere perdono che permesso’): proviamo a ottenere i libri e poi lasciamo la decisione ai dirigenti”.
Illuminanti anche i commenti di Melanie Kambadur, senior manager del team di ricerca sui modelli Llama, che ha discusso dell’addestramento dei modelli su opere di dubbia legalità.
A Martinet che scriveva “Voglio dire, nel peggiore dei casi scopriamo che alla fine va bene, mentre un’infinità di startup ha già piratato tonnellate di libri su BitTorrent”, la Kambadur rispondeva: “[Il] mio parere: cercare di fare accordi direttamente con gli editori richiede troppo tempo…”
“Dobbiamo sicuramente ottenere licenze o approvazioni per i dati pubblicamente disponibili”, poi però aggiungeva che “ora abbiamo più soldi, più avvocati, più supporto per il business development, la possibilità di accelerare i processi per guadagnare tempo, e gli avvocati sono un po’ meno conservatori nelle approvazioni”,
L’ombra di Libgen e la competizione nell’IA
Uno degli aspetti più controversi riguarda il possibile utilizzo di Libgen, un noto archivio di libri piratati, già oggetto di diverse cause legali e sanzioni per decine di milioni di dollari.
Dai documenti emerge che alcuni dirigenti di Meta ritenevano l’accesso a queste risorse “essenziale per raggiungere numeri SOTA (state-of-the-art) in tutte le categorie”.
Sony Theakanath, direttore della gestione prodotti di Meta, avrebbe suggerito delle strategie per ridurre il rischio legale, tra cui l’eliminazione dei file contrassegnati come “rubati” o “piratati”, oltre alla mancata citazione pubblica dell’uso di dataset provenienti da Libgen.
L’idea era chiara: attingere a fonti non autorizzate senza esporsi troppo.
Non solo: dalle chat emergono riferimenti a Reddit come possibile fonte di dati per l’addestramento, forse tramite l’uso di strumenti di terze parti. Questo nonostante Reddit abbia dichiarato, nell’aprile 2023, di voler far pagare le aziende di IA per l’accesso ai suoi contenuti.
Meta alza la posta e si prepara alla battaglia legale
Di fronte alle accuse, Meta ha rafforzato la propria squadra legale, assumendo due avvocati esperti di contenziosi presso la Corte Suprema dallo studio Paul Weiss.
L’azienda ha sempre sostenuto che l’uso di opere protette da copyright per addestrare i suoi modelli rientri nel concetto di fair use, ma la posizione dei querelanti – tra cui gli scrittori Sarah Silverman e Ta-Nehisi Coates – è diametralmente opposta.
Nel frattempo, emergono dettagli su come Meta abbia valutato l’opportunità di siglare accordi con gli editori. Secondo i documenti, l’azienda avrebbe confrontato i libri piratati con quelli disponibili per la licenza, per decidere se valesse la pena investire in un accordo ufficiale.
Quanto raccontato finora è l’ulteriore tassello che bene illustra come le grandi aziende \tecnologiche stiano affrontando la sfida dell’addestramento delle IA, spesso muovendosi in una zona grigia tra etica, business e regolamentazione.
E scalfisce, una volta di più, l’immagine di Zuckerberg, che tra Cambridge Analytica, lo scandalo di Snapchat e ora questo, è ormai coinvolto in troppe situazioni torbide perché si tratti di sfortunate circostanze.


