Apple, Nvidia, Anthropic e Salesforce sono tra le aziende accusate di aver utilizzato illegalmente i sottotitoli di migliaia di video di YouTube per addestrare i loro sistemi di intelligenza artificiale.
A dirlo è l’indagine di Proof News, che ha messo in luce come i sottotitoli di 173.536 video di YouTube, sottratti da più di 48.000 canali educativi, di intrattenimento e di apprendimento online, sono stati utilizzati senza il consenso dei rispettivi creator.
Il problema nasce dal fatto che gli autori non sono stati risarciti per l’utilizzo del loro materiale e molti sono preoccupati per come tali dati potrebbero essere utilizzati in futuro.
Dal canto loro, le aziende coinvolte nella querelle si difendono sostenendo che i sottotitoli sono pubblicamente disponibili e che il loro utilizzo rientra nel cosiddetto fair use. Tuttavia, questa affermazione è contestata da molti, che sottolineano come l’utilizzo di questi dati per scopi commerciali sia tutt’altro che lecito.
I rappresentanti di EleutherAI, i creatori del set di dati, non hanno risposto alle richieste di commento sui risultati dell’inchiesta, comprese le accuse secondo cui i video sarebbero stati utilizzati senza autorizzazione.
Il sito web dell’azienda afferma che il suo obiettivo generale è quello di abbassare le barriere allo sviluppo dell’intelligenza artificiale per coloro che si trovano al di fuori del cerchio della Big Tech. Peccato che in questo caso si parli di aziende quali appunto Apple, Nvidia, Anthropic e Salesforce…
Secondo un documento di ricerca pubblicato da EleutherAI, comunque, il set di dati fa parte di una raccolta pubblicata dall’organizzazione no-profit chiamata Pile. La maggior parte dei set di dati del Pile sono accessibili e aperti a chiunque su Internet disponga di spazio e potenza di calcolo sufficienti per accedervi. Tra questi figurano i succitati colossi, che hanno sfruttato questo lavoro per addestrare i loro sistemi di intelligenza artificiale.
“The Pile include un sottoinsieme molto piccolo di sottotitoli YouTube”, ha detto Jennifer Martinez, portavoce di Anthropic, in una dichiarazione in cui conferma l’uso di Pile nell’assistente AI generativo della compagnia, Claude. “I termini di YouTube coprono l’uso diretto della sua piattaforma, che è distinto dall’uso del set di dati creati da Pile. Per quanto riguarda le potenziali violazioni dei termini di servizio di YouTube, dovremmo indirizzarvi pertanto a loro“.
I sottotitoli di YouTube e altri tipi di dati di sintesi vocale sono potenzialmente una “miniera d’oro”, perché possono aiutare ad addestrare modelli per replicare il modo in cui le persone parlano e conversano, ma restano ancora irrisolte le questioni relative all’autorizzazione e al pagamento.


