Il data scraping, processo di raccolta automatizzata di grandi quantità di dati da svariate fonti online, è diventato uno strumento indispensabile nell’addestramento delle intelligenze artificiali. Questa pratica si basa sull’estrazione di informazioni da siti web, social media, forum e altre piattaforme digitali, spesso senza il consenso esplicito dei proprietari dei contenuti. Se, da un lato, il data scraping facilita la raccolta di dati necessari per alimentare e affinare algoritmi complessi, dall’altro pone importanti interrogativi sul rispetto dei diritti d’autore.
Questi diritti, garantiti a livello internazionale da trattati come la Convenzione di Berna, conferiscono agli autori il controllo esclusivo sulla pubblicazione, distribuzione e utilizzo delle proprie opere. Nel contesto del data scraping, le IA possono finire per utilizzare materiale protetto da diritto d’autore per il loro addestramento, senza l’autorizzazione dei detentori dei diritti. Questo non solo contravviene alle leggi sul copyright ma solleva anche questioni etiche sul giusto compenso e riconoscimento degli autori originali.
Un esempio notevole è quello dei modelli di apprendimento automatico per il riconoscimento visivo e la generazione di testo. Questi modelli, per essere efficaci, richiedono vasti dataset che spesso includono opere d’arte, fotografie e scritti pubblicati online. Se questi contenuti venissero raccolti e utilizzati senza permesso, gli algoritmi potrebbero beneficiare illegalmente del lavoro creativo altrui.
Inoltre, la natura automatizzata e di ampia scala del data scraping, rende difficile per i creatori individuare e contestare l’uso non autorizzato delle loro opere. Ciò significa che molte violazioni dei diritti d’autore potrebbero passare inosservate, privando gli autori della possibilità di difendere i loro diritti.
La sfida, quindi, è duplice: da un lato, c’è la necessità di nutrire le IA con dati sufficienti per il loro sviluppo e funzionamento ottimale; dall’altro, è imperativo salvaguardare i diritti e gli interessi degli autori. Questi ultimi, però, ora hanno un modo in più per difendersi: Nightshade.
Questo strumento, sviluppato per “contrastare l’asimmetria di potere” nel campo dell’addestramento dei dati, trasforma le immagini in dei campioni velenosi. In pratica, se un modello di IA viene addestrato su queste immagini senza consenso, imparerà risultati imprevedibili e inaccurati. Per esempio, un modello che richieda l’immagine di una mucca, potrebbe generare invece una borsetta nello spazio.
Nightshade non punta a distruggere i modelli di IA, bensì a incrementare il costo dell’addestramento su dati non autorizzati, rendendo più conveniente l’utilizzo di immagini licenziate. Si differenzia da Glaze, un analogo strumento difensivo, dimostrandosi un mezzo più offensivo, volto a distorcere le rappresentazioni all’interno dei modelli generativi.
Glaze opera analizzando i modelli di IA che si addestrano sull’arte creata dall’uomo e, attraverso l’uso di algoritmi di machine learning, determina una serie di lievi modifiche alle opere. Questo fa sì che agli occhi umani sembrino inalterate, mentre per i modelli di IA appare con uno stile artistico radicalmente diverso. Per esempio, ciò che per gli esseri umani è un ritratto realistico a carboncino, agli occhi di un modello di IA “distratti” da Glaze potrebbe apparire come un’opera di arte astratta moderna, nello stile di Jackson Pollock.
Nightshade invece altera più aggressivamente l’interpretazione dell’immagine da parte del modello di IA. Questo metodo è resistente alle comuni modifiche dell’immagine e rimane efficace anche se l’immagine stessa viene manipolata o catturata da uno schermo.
Nightshade e Glaze, entrambi realizzati da team capitanati dal Prof. Ben Zhao, sono strumenti complementari: Glaze per la difesa individuale degli artisti e Nightshade come approccio collettivo per disturbare i modelli che usano immagini senza consenso. Gli sviluppatori raccomandano l’uso congiunto di entrambi gli strumenti.
Tuttavia, ci sono alcune limitazioni. Nightshade al momento funziona meglio su immagini con colori piatti e sfondi uniformi, e potrebbe non rimanere efficace indefinitamente, richiedendo aggiornamenti continui per rimanere al passo con le potenziali contromisure. Cosa più facile a dirsi che a farsi, essendo i creatori di Nightshade concentrati sulla ricerca e non sul profitto.
Nightshade, attualmente in versione standalone, è in fase di test per la compatibilità con Glaze. Presto, gli utenti di WebGlaze potranno applicare Nightshade e Glaze insieme, ottenendo una doppia protezione per le loro opere d’arte online.


