A Stanford replicano un modello IA avanzato con 50 dollari!

da | 6 Feb 2025 | IA

Tempo di lettura: 3 minuti

Neanche una settimana fa scrivevamo della ‘distillazione’, una tecnica che consente a un modello di intelligenza artificiale più piccolo di apprendere da uno più avanzato ponendogli centinaia di migliaia di domande e analizzando le risposte.

In quell’occasione abbiamo scritto di un team dell’Università di Berkeley, che ha sviluppato un modello di IA paragonabile aOpenAI con un budget di soli 450 dollari, distillando un modello open-source dell’azienda cinese Alibaba.

Ma i record, si sa, sono fatti per essere battuti.

L’exploit di Stanford

Quello che non ci immaginavamo è che a distanza di una settimana un gruppo di ricercatori di Stanford e dell’Università di Washington riuscisse a batterlo. Rafforzando così l’idea che l’innovazione nell’intelligenza artificiale non è esclusiva delle grandi aziende con budget miliardari.

Con meno di 50 dollari di crediti per il cloud computing, sono infatti riusciti ad addestrare un modello AI di “ragionamento” capace di competere con le soluzioni più avanzate di OpenAI e DeepSeek.

Il loro modello, chiamato s1, è disponibile su GitHub, insieme al codice e ai dati utilizzati per la sua formazione.

Quando pochi pagano per tutti

L’elemento chiave dell’impresa dei ricercatori di Stanford è la succitata distillazione, alla base del successo di DeepSeek. In questo caso, i ricercatori hanno distillato s1 partendo da uno dei modelli di ragionamento di Google, il Gemini 2.0 Flash Thinking Experimental.

Il successo di s1 solleva nuovamente interrogativi sulle strategie miliardarie dei big della Silicon Valley. Se un piccolo team può replicare le capacità di modelli che hanno richiesto investimenti milionari con poche risorse, quale sarà il futuro del settore?

Non è un caso che le grandi aziende del settore non vedano di buon occhio queste evoluzioni.

OpenAI ha già accusato DeepSeek di aver sfruttato in modo improprio i dati della sua API per distillare un modello concorrente. Anche Google potrebbe non essere entusiasta dell’utilizzo del suo Gemini 2.0 Flash Thinking Experimental, visto che i suoi termini di servizio vietano espressamente l’ingegneria inversa dei modelli per lo sviluppo di prodotti concorrenti.

Soli 30 minuti e un dataset di 1.000 domande

Il team di Stanford ha seguito un approccio pragmatico per ottenere il massimo delle capacità di ragionamento con il minimo sforzo.

Per addestrare s1, ha utilizzato un piccolo modello AI open-source sviluppato dal laboratorio cinese Qwen, di proprietà di Alibaba, e ha costruito un dataset di sole 1.000 domande accuratamente selezionate, ciascuna accompagnata da risposte e dal “processo di pensiero” generato da Gemini 2.0.

L’addestramento ha richiesto meno di 30 minuti su 16 GPU Nvidia H100.

Un dettaglio interessante riguarda una soluzione inaspettata adottata dai ricercatori per migliorare la precisione delle risposte del modello: hanno semplicemente detto all’AI di “aspettare”.

Inserire la parola “wait” nelle istruzioni di ragionamento ha permesso a s1 di ottenere risultati leggermente più accurati, suggerendo che il tempo di elaborazione possa influire sulle prestazioni di un modello.

Ma le copie non creano nulla

Mentre colossi come Meta, Google e Microsoft si preparano a investire centinaia di miliardi di dollari per addestrare la prossima generazione di intelligenze artificiali, il caso di s1 dimostra che l’innovazione può anche seguire strade più economiche.

Tuttavia, sebbene la distillazione si sia rivelata un metodo efficace per riprodurre le capacità di un modello esistente, non sembra ancora in grado di generare sistemi significativamente più avanzati rispetto a quelli attuali.

La domanda quindi è aperta: basteranno modelli a basso costo come s1 per cambiare le regole del gioco, o il futuro dell’intelligenza artificiale resterà in mano ai grandi player del settore in grado di innovare realmente?

POTREBBE INTERESSARTI

Elon Musk xAI Cursor
, • ⏱ 2 min

SpaceX compra Cursor per 60 miliardi e sfida Anthropic e OpenAI sul coding

L’operazione, interamente in azioni, arriva pochi giorni dopo la quotazione più grande della storia e punta ai clienti aziendali che finora hanno snobbato...
cover manageengine
, • ⏱ 5 min

Cyber resilience: la survey di ManageEngine indica un’Italia a metà del guado

Presentata a Milano insieme ai numeri del Clusit, la ricerca fotografa aziende italiane brave a rilevare gli incidenti entro 24 ore ma lente a ripristinare...
apple unione europea siri ai 2
, • ⏱ 3 min

Siri AI non arriva su iPhone in Europa: Apple e Bruxelles si rimpallano la colpa

Per l’azienda l’interoperabilità del DMA significa dare ai rivali accesso a messaggi, foto e file degli utenti. Per Bruxelles è Apple a non aver presentato...
Sundar Pichai Stanford studenti2
, • ⏱ 3 min

Stanford, circa 200 laureati lasciano il discorso di Pichai

L’uomo simbolo dell’intelligenza artificiale tiene un discorso di laurea senza mai nominarla. Ma i laureati protestano per la fornitura di tecnologia al...
Mark Zuckerberg Meta
, • ⏱ 5 min

Meta ha speso miliardi sull’IA. Ora Zuckerberg deve convincere Wall Street

Dopo Scale AI, Muse Spark e la nuova unità Applied AI, Meta è tornata nella partita dell’intelligenza artificiale. Ma tra sviluppatori freddi, morale interno basso e il...
Andy Jassy Amazon Anthropic
, , • ⏱ 5 min

La soffiata su Anthropic è arrivata da Amazon (che ci ha investito miliardi)

Andy Jassy ha segnalato al Tesoro che i suoi avevano aggirato i freni di Fable 5. Amazon è la stessa azienda che in Anthropic ha investito miliardi, le fornisce i chip...
PI DAY Celonis Mauro Terraneo_Regional Managing Director Celonis Italia
• ⏱ 5 min

Celonis vuole dare un contesto all’IA delle aziende

Al PI Day di Milano, la società ha mostrato come la Process Intelligence può aiutare gli agenti IA a lavorare sui processi reali. Dai sinistri Unipol alla supply chain...
Dario Amodei Anthropic
, • ⏱ 3 min

Anthropic ha detto che la sua IA è troppo pericolosa. Il governo USA l’ha presa in parola

Washington cita la sicurezza nazionale e un presunto jailbreak, e blocca i modelli Fable 5 e Mythos 5. Anthropic ribatte che la falla è circoscritta e già presente in...
Arthur Mensch Mistral
, • ⏱ 2 min

Mistral raddoppia a 20 miliardi, ma resta lontana da OpenAI e Anthropic

La startup francese raddoppia la valutazione di settembre, ma compete con una frazione del capitale di OpenAI (852 mld) e Anthropic (965 mld). Dietro il campione...
Meta Zuckerberg Meta Ray-Ban EssilorLuxottica
, • ⏱ 3 min

Gli abbonamenti di Meta misurano la sua debolezza nell’IA

Mentre cresce la spesa per l’intelligenza artificiale e aumenta il ricorso al debito, Zuckerberg prova a diversificare i ricavi partendo dall’unico business...
Share This