Neanche una settimana fa scrivevamo della ‘distillazione’, una tecnica che consente a un modello di intelligenza artificiale più piccolo di apprendere da uno più avanzato ponendogli centinaia di migliaia di domande e analizzando le risposte.
In quell’occasione abbiamo scritto di un team dell’Università di Berkeley, che ha sviluppato un modello di IA paragonabile aOpenAI con un budget di soli 450 dollari, distillando un modello open-source dell’azienda cinese Alibaba.
Ma i record, si sa, sono fatti per essere battuti.
L’exploit di Stanford
Quello che non ci immaginavamo è che a distanza di una settimana un gruppo di ricercatori di Stanford e dell’Università di Washington riuscisse a batterlo. Rafforzando così l’idea che l’innovazione nell’intelligenza artificiale non è esclusiva delle grandi aziende con budget miliardari.
Con meno di 50 dollari di crediti per il cloud computing, sono infatti riusciti ad addestrare un modello AI di “ragionamento” capace di competere con le soluzioni più avanzate di OpenAI e DeepSeek.
Il loro modello, chiamato s1, è disponibile su GitHub, insieme al codice e ai dati utilizzati per la sua formazione.
Quando pochi pagano per tutti
L’elemento chiave dell’impresa dei ricercatori di Stanford è la succitata distillazione, alla base del successo di DeepSeek. In questo caso, i ricercatori hanno distillato s1 partendo da uno dei modelli di ragionamento di Google, il Gemini 2.0 Flash Thinking Experimental.
Il successo di s1 solleva nuovamente interrogativi sulle strategie miliardarie dei big della Silicon Valley. Se un piccolo team può replicare le capacità di modelli che hanno richiesto investimenti milionari con poche risorse, quale sarà il futuro del settore?
Non è un caso che le grandi aziende del settore non vedano di buon occhio queste evoluzioni.
OpenAI ha già accusato DeepSeek di aver sfruttato in modo improprio i dati della sua API per distillare un modello concorrente. Anche Google potrebbe non essere entusiasta dell’utilizzo del suo Gemini 2.0 Flash Thinking Experimental, visto che i suoi termini di servizio vietano espressamente l’ingegneria inversa dei modelli per lo sviluppo di prodotti concorrenti.
Soli 30 minuti e un dataset di 1.000 domande
Il team di Stanford ha seguito un approccio pragmatico per ottenere il massimo delle capacità di ragionamento con il minimo sforzo.
Per addestrare s1, ha utilizzato un piccolo modello AI open-source sviluppato dal laboratorio cinese Qwen, di proprietà di Alibaba, e ha costruito un dataset di sole 1.000 domande accuratamente selezionate, ciascuna accompagnata da risposte e dal “processo di pensiero” generato da Gemini 2.0.
L’addestramento ha richiesto meno di 30 minuti su 16 GPU Nvidia H100.
Un dettaglio interessante riguarda una soluzione inaspettata adottata dai ricercatori per migliorare la precisione delle risposte del modello: hanno semplicemente detto all’AI di “aspettare”.
Inserire la parola “wait” nelle istruzioni di ragionamento ha permesso a s1 di ottenere risultati leggermente più accurati, suggerendo che il tempo di elaborazione possa influire sulle prestazioni di un modello.
Ma le copie non creano nulla
Mentre colossi come Meta, Google e Microsoft si preparano a investire centinaia di miliardi di dollari per addestrare la prossima generazione di intelligenze artificiali, il caso di s1 dimostra che l’innovazione può anche seguire strade più economiche.
Tuttavia, sebbene la distillazione si sia rivelata un metodo efficace per riprodurre le capacità di un modello esistente, non sembra ancora in grado di generare sistemi significativamente più avanzati rispetto a quelli attuali.
La domanda quindi è aperta: basteranno modelli a basso costo come s1 per cambiare le regole del gioco, o il futuro dell’intelligenza artificiale resterà in mano ai grandi player del settore in grado di innovare realmente?


