Presto mancheranno i dati per addestrare le intelligenze artificiali

da | 3 Apr 2024 | IA

Tempo di lettura: 2 minuti

Nello sviluppare modelli di intelligenza artificiale sempre più avanzati, le aziende del settore si trovano di fronte a una sfida crescente: la potenziale insufficienza di dati disponibili su Internet per sostenerne l’addestramento.

Secondo quanto riportato dal Wall Street Journal, data la progressiva limitazione dello spazio informativo disponibile sul web, diverse aziende stanno valutando fonti alternative per l’acquisizione di dati. Tra esse troviamo le trascrizioni di video disponibili pubblicamente e i dati sintetici prodotti dall’intelligenza artificiale.

Compagnie come Dataology, fondata da ex ricercatori di Meta e Google DeepMind tra cui quali Ari Morcos, stanno esplorando nuovi metodi per ottimizzare l’addestramento di modelli più efficienti e intelligenti, riducendo il fabbisogno di dati e di risorse. Tuttavia, la maggior parte delle grandi imprese sta indagando su approcci innovativi e talvolta controversi per la formazione dei dati.

Per esempio, OpenAI, secondo fonti citate dal WSJ, ha considerato l’utilizzo delle trascrizioni di video pubblici su YouTube per l’addestramento di GPT-5, nonostante Mira Murati, Chief Technology Officer dell’azienda, non riesca a confermare se per l’allenamento del generatore di video Sora siano o meno stati utilizzati i dati di YouTube.

Arriviamo così ai dati sintetici, informazioni generate artificialmente tramite algoritmi o intelligenze artificiali. Questi dati sono progettati per simulare le caratteristiche statistiche dei dati reali, consentendo così agli sviluppatori di testare sistemi, modelli di machine learning e algoritmi senza incorrere nei problemi di privacy o di disponibilità associati all’utilizzo di dati reali.

L’addestramento degli LLM sui dati sintetici ha suscitato un ampio dibattito nei mesi recenti, in seguito alla scoperta che l’addestramento delle intelligenze artificiali su dati generati artificialmente potrebbe portare a una sorta di “consanguineità digitale”, culminante nel rischio di un “crollo del modello”.

Aziende quali OpenAI e Anthropic si stanno adoperando per generare dati sintetici di qualità superiore, sebbene i dettagli delle loro metodologie rimangano confidenziali. Anche Anthropic ha rivelato che il suo modello Claude 3 LLM è stato addestrato su “dati generati internamente”, con Jared Kaplan, scienziato principale dell’azienda, che riconosce il valore dell’impiego di dati sintetici in certe applicazioni.

Nonostante le preoccupazioni relative alla possibile carenza di dati per le intelligenze artificiali abbiano iniziato a emergere negli ultimi tempi, Pablo Villalobos, ricercatore presso Epoch, ha minimizzato i timori, sottolineando che, benché la sua organizzazione preveda un esaurimento dei dati adatti all’addestramento nei prossimi anni, non vi è motivo di allarme immediato, enfatizzando l’importanza delle scoperte future in questo ambito.

POTREBBE INTERESSARTI

Sam Altman IA OpenAI
, • ⏱ 4 min

OpenAI verso Wall Street, dopo Anthropic e SpaceX

La società di ChatGPT ha presentato domanda riservata per la quotazione negli Stati Uniti. La valutazione potrebbe arrivare a 1.000 miliardi di dollari, ma la...
wwdc 26 apple tim cook
• ⏱ 3 min

Siri AI: Apple morde la mela di Google

Apple affitta da Google il “cervello” del suo assistente e si scopre nella stessa posizione di chiunque non costruisca i modelli: non più padrone della...
Broadcom chip IA
, • ⏱ 3 min

Broadcom taglia le stime sull’IA, e la borsa di Seul si ferma

Una previsione rivista sui chip IA di Broadcom basta a far scattare la sospensione automatica delle contrattazioni a Seul, dove Samsung e SK Hynix pesano oltre il 40%...
thibault sottiaux openai
• ⏱ 3 min

“La chat è morta”: OpenAI riscriverà ChatGPT prima della quotazione

Il prodotto che ha avviato il boom dell’IA diventa la porta d’ingresso verso servizi a più alto margine, mentre la strategia converge con quella della...
• ⏱ 4 min

Google, Anthropic e Meta studiano la coscienza delle macchine

I grandi laboratori di IA assumono esperti di filosofia, etica e psicologia per capire se i modelli avanzati possano avere esperienze, preferenze o forme di...
sam altman donald trump openai IA
, • ⏱ 2 min

Il governo americano studia una partecipazione nelle aziende di IA

Gli Stati Uniti stanno valutando partecipazioni pubbliche nelle società di IA. L’idea è partita da Sam Altman, che l’ha portata all’amministrazione...
spacex
, , • ⏱ 3 min

Google pagherà a SpaceX quasi un miliardo al mese per il cloud

Alla vigilia della quotazione record da 1.770 miliardi, l’azienda di Musk monetizza i data center nati per addestrare Grok, affittandoli ai suoi...
Anthropic
• ⏱ 3 min

Anthropic chiede di rallentare l’IA. Mentre corre verso la borsa

L’azienda di Dario Amodei propone una tregua concordata e un meccanismo per verificare che nessuno bari, paragonandolo agli accordi sul nucleare. Ma per alcuni è...
Helion
, • ⏱ 4 min

Fusione nucleare, Altman punta su Helion per dare energia a Microsoft

Mentre l’IA aumenta la fame di elettricità dei grandi gruppi tech, il fondatore di OpenAI sostiene la startup che promette di alimentare Microsoft con una centrale a...
Sundar Pichai Google
, • ⏱ 3 min

Google raccoglie 85 miliardi nella più grande emissione azionaria della storia

Con la spesa che supererà presto il flusso di cassa operativo, il colosso di Mountain View cambia modello finanziario. E apre la strada alle IPO di Anthropic e...
Share This