A fine marzo, Google Research ha pubblicato un post tecnico su TurboQuant, un algoritmo capace, stando alle premesse,—i ridurre drasticamente la quantità di memoria necessaria per far girare i grandi modelli linguistici.
La reazione dei mercati è stata immediata: le azioni di Samsung Electronics e SK Hynix, i due produttori sudcoreani che dominano il mercato globale dei chip di memoria avanzati per i server IA, sono crollate.
Per due settimane, gli investitori hanno temuto che una singola innovazione software potesse sgonfiare uno dei cicli espansivi più solidi degli ultimi anni. Poi sono arrivati i conti di Samsung.
Nel primo trimestre del 2025, la società ha stimato profitti superiori all’intero anno precedente, citando un “superciclo senza precedenti” nella domanda di chip di memoria. E non c’è alcun segnale che la memoria stia smettendo di essere un collo di bottiglia per l’industria dell’IA.
Le azioni sono così rimbalzate vicino ai massimi storici, e il panico si è dissolto, almeno per ora. Vale però la pena capire cosa ha davvero spaventato i mercati, e perché quella paura potrebbe essere stata mal posta fin dall’inizio.
Come funziona TurboQuant
I modelli IA come ChatGPT o Claude, mentre elaborano una conversazione, devono tenere traccia di tutto ciò che è stato detto in precedenza. Questo avviene attraverso un sistema di memoria temporanea che cresce con ogni scambio e che consuma quantità significative di chip di memoria ad alte prestazioni.
TurboQuant comprime questa memoria temporanea e la ricostruisce quando serve, con una perdita di accuratezza apparentemente trascurabile. Secondo i ricercatori di Google, il risparmio potrebbe arrivare fino a sei volte.
Per i produttori di chip, il ragionamento è stato lineare: meno memoria consumata per ogni sessione di IA, equivale a meno chip venduti. Samsung e SK Hynix, che insieme coprono la quota dominante del mercato globale di questi componenti, avrebbero avuto tutto da perdere.
Il problema è che quel ragionamento parte da un’assunzione implicita: che la domanda di IA rimanga costante. Ed è esattamente qui che gli analisti hanno iniziato a dissentire.
Il paradosso di Jevons
Nel 1865, l’economista William Stanley Jevons osservò qualcosa di controintuitivo: il motore a vapore più efficiente di James Watt non aveva ridotto il consumo di carbone. Lo aveva moltiplicato.
Perché una tecnologia più efficiente abbassa i costi, i costi più bassi aprono nuovi mercati e nuovi usi, e la domanda complessiva finisce per salire, non scendere. Questo meccanismo, noto appunto come paradosso di Jevons, si è ripetuto con tale regolarità nella storia tecnologica da essere considerato quasi una legge.
Gli analisti del settore dei semiconduttori lo hanno applicato subito a TurboQuant. Se l’algoritmo funzionerà davvero, il costo per eseguire un modello di IA si abbasserà. Costi più bassi renderanno economicamente praticabili applicazioni che oggi sono troppo care: assistenti in tempo reale, agenti IA multipli in esecuzione simultanea, modelli ad alte prestazioni su dispositivi più piccoli. La domanda complessiva di elaborazione, e quindi di chip, salirà.
Il precedente più recente è Kubernetes, la tecnologia di Google che a fine anni 2010 ha reso possibile far girare più applicazioni sullo stesso server. All’epoca, molti temevano un crollo della domanda dell’hardware. Accadde l’opposto: i costi più bassi esplosero i volumi, e i data center ne uscirono più affollati di prima.
Un mercato che cambia
Al di là del dibattito su TurboQuant, l’articolo del Financial Times rivela qualcosa di più strutturale nel modo in cui il mercato dei chip di memoria sta evolvendo. I grandi fornitori di servizi IA stanno stringendo contratti pluriennali (tre, cinque anni) per assicurarsi forniture continuative. Samsung ha confermato di stare perseguendo questa direzione con i principali clienti, abbandonando i tradizionali accordi trimestrali.
È un segnale preciso: la memoria ad alte prestazioni sta diventando un asset strategico, non più una commodity soggetta ai capricci del ciclo. La domanda si fa più prevedibile, i prezzi contrattuali contano più di quelli spot, e la volatilità tipica del settore si attenua. Per i produttori sudcoreani, questo è un cambiamento strutturale favorevole, indipendentemente da ciò che farà TurboQuant.
Ray Wang di SemiAnalysis ha sintetizzato la posizione degli analisti più ottimisti: la crescita dei modelli IA, l’allungamento dei contesti elaborati e la proliferazione degli agenti aziendali continueranno ad aumentare la domanda di memoria, non a ridurla.
Un paper accademico che ha mosso miliardi
C’è un elemento che vale la pena ricordare: TurboQuant, ad oggi, è ancora solo un post di un blog. Non è una tecnologia distribuita, non è stata testata in produzione da nessuno al di fuori di Google.
La sua presentazione alla International Conference on Learning Representations, prevista per fine aprile, sarà il primo momento in cui ricercatori esterni potranno valutarla davvero. Il suo impatto reale dipenderà poi dalla capacità dei grandi gruppi tecnologici di implementarla su scala.
Eppure un annuncio accademico ha fatto crollare e poi rimbalzare miliardi di capitalizzazione di mercato nel giro di settimane. Han In-su, uno dei ricercatori alla base dell’algoritmo, ha dichiarato al Financial Times di non aver immaginato che una domanda accademica sulla compressione dei dati potesse generare “un tale enorme effetto a catena sociale ed economico”.
È forse questa la notizia più importante: non cosa fa TurboQuant, ma quanto rapidamente i mercati e l’industria reagiscono a ciò che potrebbe fare. In un settore dove l’anticipazione vale quanto la realtà, la distinzione tra annuncio e dato di fatto non è mai stata così sottile.
Fonte: Financial Times


