Llama è il nome della famiglia di modelli linguistici open source sviluppata da Meta, presentata fin dall’inizio come l’alternativa trasparente e accessibile ai giganti proprietari dell’IA come OpenAI e Google DeepMind.
La quarta generazione sta attirando grande attenzione sia per la sua promessa di capacità conversazionali avanzate, sia per l’ambizione dichiarata di Meta di farne una base solida per il futuro del suo ecosistema IA, incluso l’assistente integrato nei prodotti Facebook, Instagram e WhatsApp.
Tra i modelli più attesi c’è Llama 4 Maverick, affiancato da Llama 4 Scout, due varianti concepite rispettivamente per eccellere nelle conversazioni e nei compiti più strutturati.
Ma proprio quando l’hype mediatico stava crescendo, ecco che si è diffuso un sospetto inquietante: Meta avrebbe truccato i benchmark, ossia i test comparativi che stabiliscono l’efficacia e le prestazioni di un modello AI.
Che cos’è un ‘test set’ e perché conta
Per capire l’accusa, bisogna entrare per un attimo nel funzionamento dei benchmark di intelligenza artificiale.
Dopo aver addestrato un modello su grandi volumi di dati, gli sviluppatori lo mettono alla prova su insiemi di dati separati, detti test set, per valutarne la reale capacità di generalizzazione, cioè di affrontare compiti nuovi e non visti prima.
Se però un modello viene addestrato anche su questi test – consapevolmente o meno – i risultati perdono valore, perché non misurano più la competenza reale ma solo la memoria.
È questo il cuore della polemica esplosa nel fine settimana: un post anonimo su un social cinese, firmato da un presunto ex dipendente dimessosi per protesta, ha accusato Meta di aver deliberatamente ottimizzato i suoi modelli per “fare bella figura” nei benchmark, nascondendone le reali debolezze.
Il post è stato rapidamente rilanciato su X e Reddit, alimentando discussioni accesissime tra ricercatori e sviluppatori.
Un Maverick “truccato”? Le differenze tra pubblico e privato
A dare consistenza ai sospetti, più che le parole di un anonimo, sono stati i test effettuati da utenti e ricercatori su Llama 4 Maverick, nella versione pubblica rispetto a quella ospitata sulla piattaforma LM Arena, un benchmark open utilizzato da diverse aziende per confrontare i propri modelli.
Secondo diverse testimonianze, la versione scaricabile di Maverick si comporterebbe in modo sensibilmente peggiore rispetto a quella testata pubblicamente su LM Arena, facendo pensare che Meta abbia usato per il benchmark una versione “sperimentale” e ottimizzata, non ancora rilasciata al pubblico.
È una strategia legittima? Per alcuni sì, purché venga dichiarato. Ma proprio la mancanza di trasparenza ha riacceso il dibattito: se un’azienda pubblica i risultati di un modello che poi risulta diverso da quello effettivamente disponibile, si rischia di ingannare gli sviluppatori e le aziende che su quei risultati basano le proprie scelte tecnologiche.
La replica di Meta: “Nessun addestramento di Llama sui test set”
A tentare di placare le polemiche è intervenuto lunedì Ahmad Al-Dahle, vicepresidente dell’area IA generativa di Meta, con un post su X in cui ha scritto: “Non è semplicemente vero che abbiamo addestrato Maverick e Scout sui set di test”. Al-Dahle ha definito la voce “non fondata” e ha negato qualsiasi forma di manipolazione delle valutazioni, affermando che Meta “non lo farebbe mai”.
Visualizza su Threads
Ha anche riconosciuto che le versioni del modello attualmente disponibili possono mostrare “qualità altalenante” a seconda del cloud provider che le ospita, spiegando che “abbiamo rilasciato i modelli non appena erano pronti, quindi ci vorranno alcuni giorni prima che tutte le implementazioni pubbliche siano completamente ottimizzate. Continueremo a lavorare sui bug fix e sull’onboarding dei nostri partner”.
Nel mondo dell’intelligenza artificiale, dove trasparenza, replicabilità e rigore scientifico sono le chiavi per costruire fiducia, l’ombra del sospetto rischia di pesare anche quando non ci sono prove concrete.
La stessa LM Arena, la piattaforma usata da Meta per mostrare i benchmark, ha fatto sapere che aggiornerà le proprie policy per evitare ambiguità simili in futuro.
Il caso Llama 4 non è ancora chiuso e la comunità AI lo sta seguendo con grande attenzione.
Se da un lato i modelli open source promettono maggiore equità e accesso, dall’altro le grandi aziende che li sviluppano restano sotto scrutinio, soprattutto quando i numeri pubblici sembrano troppo belli per essere veri.


