Presto mancheranno i dati per addestrare le intelligenze artificiali

da | 3 Apr 2024 | IA

Nello sviluppare modelli di intelligenza artificiale sempre più avanzati, le aziende del settore si trovano di fronte a una sfida crescente: la potenziale insufficienza di dati disponibili su Internet per sostenerne l’addestramento.

Secondo quanto riportato dal Wall Street Journal, data la progressiva limitazione dello spazio informativo disponibile sul web, diverse aziende stanno valutando fonti alternative per l’acquisizione di dati. Tra esse troviamo le trascrizioni di video disponibili pubblicamente e i dati sintetici prodotti dall’intelligenza artificiale.

Compagnie come Dataology, fondata da ex ricercatori di Meta e Google DeepMind tra cui quali Ari Morcos, stanno esplorando nuovi metodi per ottimizzare l’addestramento di modelli più efficienti e intelligenti, riducendo il fabbisogno di dati e di risorse. Tuttavia, la maggior parte delle grandi imprese sta indagando su approcci innovativi e talvolta controversi per la formazione dei dati.

Per esempio, OpenAI, secondo fonti citate dal WSJ, ha considerato l’utilizzo delle trascrizioni di video pubblici su YouTube per l’addestramento di GPT-5, nonostante Mira Murati, Chief Technology Officer dell’azienda, non riesca a confermare se per l’allenamento del generatore di video Sora siano o meno stati utilizzati i dati di YouTube.

Arriviamo così ai dati sintetici, informazioni generate artificialmente tramite algoritmi o intelligenze artificiali. Questi dati sono progettati per simulare le caratteristiche statistiche dei dati reali, consentendo così agli sviluppatori di testare sistemi, modelli di machine learning e algoritmi senza incorrere nei problemi di privacy o di disponibilità associati all’utilizzo di dati reali.

L’addestramento degli LLM sui dati sintetici ha suscitato un ampio dibattito nei mesi recenti, in seguito alla scoperta che l’addestramento delle intelligenze artificiali su dati generati artificialmente potrebbe portare a una sorta di “consanguineità digitale”, culminante nel rischio di un “crollo del modello”.

Aziende quali OpenAI e Anthropic si stanno adoperando per generare dati sintetici di qualità superiore, sebbene i dettagli delle loro metodologie rimangano confidenziali. Anche Anthropic ha rivelato che il suo modello Claude 3 LLM è stato addestrato su “dati generati internamente”, con Jared Kaplan, scienziato principale dell’azienda, che riconosce il valore dell’impiego di dati sintetici in certe applicazioni.

Nonostante le preoccupazioni relative alla possibile carenza di dati per le intelligenze artificiali abbiano iniziato a emergere negli ultimi tempi, Pablo Villalobos, ricercatore presso Epoch, ha minimizzato i timori, sottolineando che, benché la sua organizzazione preveda un esaurimento dei dati adatti all’addestramento nei prossimi anni, non vi è motivo di allarme immediato, enfatizzando l’importanza delle scoperte future in questo ambito.

POTREBBE INTERESSARTI

Jen-Hsun Huang durante una presentazione di Nvidia

Nvidia batte Microsoft ed è la società che vale di più al mondo

Spinta dal crescente interesse nel comparto dell'intelligenza artificiale, settore in cui è leader grazie ai suoi processori di fascia alta, Nvidia ha infranto un nuovo...
Il segretario della NATO Jens Stoltenberg

La NATO investe mille miliardi di euro in IA, robot e spazio

La NATO investe mille miliardi di euro in 4 aziende specializzate in tecnologia per lo sviluppo di IA, robotica e ingegneria spaziale.

I robots di Ex-Robots

In Cina stanno costruendo robot con espressioni facciali umane

L’ultima frontiera della tecnologia fonde la robotica con l’intelligenza artificiale. L’obiettivo è quello di usare l’IA per dare ai robot...
Sam Altman potrebbe trasformare OpenAI in una società benefit foto: Joel Saget/AFP/Getty Images

OpenAI potrebbe diventare una società benefit (e perseguire il profitto)

OpenAI, per competete al meglio contro Anthropic e xAI, potrebbe cessare di essere una no-profit. E c’è già chi come passo successivo s’immagina...
NVIDIA lancia Nemotron-4 340B per la generazione di dati sintetici

NVIDIA lancia Nemotron-4 340B per la generazione di dati sintetici

La famiglia di modelli Nemotron-4 340B servirà per l’addestramento dei degli LLM in tutti quei casi in cui i dati reali sono costosi, difficili da ottenere o...
Ai giovani piace l'idea di affidarsi all'IA per gestire il proprio denaro

Giovani e IA: è una nuova era per la gestione finanziaria?

A Generazione Z e Millennials piace l’idea di affidarsi all’IA per gestire il proprio denaro. Scettici invece Generazione X e i Baby Boomers.

Meta sospende il lancio dei modelli di IA in Europa

Meta sospende il lancio dei modelli di IA in Europa

La scelta è dovuta alla richiesta dell’Irlanda. Delusa Meta, soddisfatte NYOB, DPC e ICO.

Dream Machine è in grado di generare 120 fotogrammi di video in 120 secondi

Dream Machine: il text-to-video di Luma Labs è già disponibile

Dream Machine è in grado di generare 120 fotogrammi di video in 120 secondi.

I robot Optimus di Tesla starebbero già lavorando in fabbrica senza intervento umano
,

Tesla rivela che due robot Optimus già lavorano… autonomamente

I robot Optimus di Tesla starebbero già lavorando in fabbrica senza intervento umano. Saranno in vendita dal prossimo anno.

di Apple Intelligence vedrà la collaborazione tra Apple e OpenAI.
,

Apple Intelligence: come funzionerà l’accordo con OpenAI?

Superato l’annuncio della WWDC 2024, restano aperti molti interrogativi non solo sul presente ma anche sul futuro di Apple Intelligence. Ecco quali…

Share This