Presto mancheranno i dati per addestrare le intelligenze artificiali

da | 3 Apr 2024 | IA

Tempo di lettura: 2 minuti

Nello sviluppare modelli di intelligenza artificiale sempre più avanzati, le aziende del settore si trovano di fronte a una sfida crescente: la potenziale insufficienza di dati disponibili su Internet per sostenerne l’addestramento.

Secondo quanto riportato dal Wall Street Journal, data la progressiva limitazione dello spazio informativo disponibile sul web, diverse aziende stanno valutando fonti alternative per l’acquisizione di dati. Tra esse troviamo le trascrizioni di video disponibili pubblicamente e i dati sintetici prodotti dall’intelligenza artificiale.

Compagnie come Dataology, fondata da ex ricercatori di Meta e Google DeepMind tra cui quali Ari Morcos, stanno esplorando nuovi metodi per ottimizzare l’addestramento di modelli più efficienti e intelligenti, riducendo il fabbisogno di dati e di risorse. Tuttavia, la maggior parte delle grandi imprese sta indagando su approcci innovativi e talvolta controversi per la formazione dei dati.

Per esempio, OpenAI, secondo fonti citate dal WSJ, ha considerato l’utilizzo delle trascrizioni di video pubblici su YouTube per l’addestramento di GPT-5, nonostante Mira Murati, Chief Technology Officer dell’azienda, non riesca a confermare se per l’allenamento del generatore di video Sora siano o meno stati utilizzati i dati di YouTube.

Arriviamo così ai dati sintetici, informazioni generate artificialmente tramite algoritmi o intelligenze artificiali. Questi dati sono progettati per simulare le caratteristiche statistiche dei dati reali, consentendo così agli sviluppatori di testare sistemi, modelli di machine learning e algoritmi senza incorrere nei problemi di privacy o di disponibilità associati all’utilizzo di dati reali.

L’addestramento degli LLM sui dati sintetici ha suscitato un ampio dibattito nei mesi recenti, in seguito alla scoperta che l’addestramento delle intelligenze artificiali su dati generati artificialmente potrebbe portare a una sorta di “consanguineità digitale”, culminante nel rischio di un “crollo del modello”.

Aziende quali OpenAI e Anthropic si stanno adoperando per generare dati sintetici di qualità superiore, sebbene i dettagli delle loro metodologie rimangano confidenziali. Anche Anthropic ha rivelato che il suo modello Claude 3 LLM è stato addestrato su “dati generati internamente”, con Jared Kaplan, scienziato principale dell’azienda, che riconosce il valore dell’impiego di dati sintetici in certe applicazioni.

Nonostante le preoccupazioni relative alla possibile carenza di dati per le intelligenze artificiali abbiano iniziato a emergere negli ultimi tempi, Pablo Villalobos, ricercatore presso Epoch, ha minimizzato i timori, sottolineando che, benché la sua organizzazione preveda un esaurimento dei dati adatti all’addestramento nei prossimi anni, non vi è motivo di allarme immediato, enfatizzando l’importanza delle scoperte future in questo ambito.

POTREBBE INTERESSARTI

Caitlin Kalinowski OpenAI
, • ⏱ 2 min

La responsabile della robotica di OpenAI si dimette per il contratto col Pentagono

Caitlin Kalinowski si dimette citando i rischi di sorveglianza e autonomia letale. L’azienda difende l’intesa ma le contraddizioni restano.

masayoshi son sam altman
, • ⏱ 2 min

SoftBank chiede 40 miliardi in prestito per OpenAI. E il mercato inizia a preoccuparsi

Venduta la quota in Nvidia, comprata altra OpenAI: il fondatore Masayoshi Son trasforma SoftBank in una scommessa sull’IA generativa. Con tutti i rischi del...
Dario Amodei Anthropic
, , • ⏱ 3 min

Amodei si scusa per il memo. E porta il Pentagono in tribunale

Amodei aveva accusato Trump di volere “lodi in stile dittatore” e OpenAI di fare “teatro della sicurezza”. Ora le scuse, ma la battaglia legale...
Dario Amodei Anthropic
, • ⏱ 3 min

Il memo di Amodei rischia di far saltare la pace con il Pentagono

Le trattative tra Anthropic e il Dipartimento della Difesa erano appena ripartite quando è trapelato il testo interno del CEO (con accuse dirette...
Maher Saba Meta 2
• ⏱ 2 min

Meta crea una nuova organizzazione di ingegneria applicata per l’IA

Una nuova organizzazione affiancherà i Superintelligence Labs per produrre feedback, valutazioni e dati reali per rendere i modelli di IA sempre più...
Sam Altman ChatGPT OpenAI NATO
• ⏱ 3 min

Sam Altman ora mira alla NATO

Dopo aver conquistato il Pentagono, secondo il Wall Street Journal ora OpenAI sta guardando alla NATO. Ma i dati degli europei dove finirebbero?

Sam Altman OpenAI
, • ⏱ 4 min

OpenAI e Pentagono, Sam Altman ci ripensa

Il CEO di OpenAI aggiunge nuove clausole sulla sorveglianza domestica dopo la firma. Le proteste interne e le pressioni esterne sembrano aver avuto effetto.

iran ia cover
, • ⏱ 3 min

Guerra, IA e chip: con l’Iran, niente è più come prima

L’uso militare dell’IA da parte degli Stati Uniti spinge la Cina verso chip e modelli nazionali. Ma la strada dell’open source porta con sé rischi che...
merz germania
, • ⏱ 3 min

Merz in visita la Cina, accolto da una parata di robot umanoidi

Merz, il 13 febbraio a Monaco: “La Cina reinterpreta l’ordine internazionale a proprio vantaggio”. Ma il 27 febbraio era ad Hangzhou, tra parate di...
Sam Altman OpenAI
, • ⏱ 6 min

Il damage control di Sam Altman

Il CEO di OpenAI difende Anthropic su X mentre ne occupa lo spazio al Dipartimento della Guerra. L’AMA da cinque milioni di visualizzazioni è il capolavoro di una...
Share This