Meta ha davvero gonfiato i benchmark di Llama 4?

da | 8 Apr 2025 | IA

Llama è il nome della famiglia di modelli linguistici open source sviluppata da Meta, presentata fin dall’inizio come l’alternativa trasparente e accessibile ai giganti proprietari dell’IA come OpenAI e Google DeepMind.

La quarta generazione sta attirando grande attenzione sia per la sua promessa di capacità conversazionali avanzate, sia per l’ambizione dichiarata di Meta di farne una base solida per il futuro del suo ecosistema IA, incluso l’assistente integrato nei prodotti Facebook, Instagram e WhatsApp.

Tra i modelli più attesi c’è Llama 4 Maverick, affiancato da Llama 4 Scout, due varianti concepite rispettivamente per eccellere nelle conversazioni e nei compiti più strutturati.

Ma proprio quando l’hype mediatico stava crescendo, ecco che si è diffuso un sospetto inquietante: Meta avrebbe truccato i benchmark, ossia i test comparativi che stabiliscono l’efficacia e le prestazioni di un modello AI.

Che cos’è un ‘test set’ e perché conta

Per capire l’accusa, bisogna entrare per un attimo nel funzionamento dei benchmark di intelligenza artificiale.

Dopo aver addestrato un modello su grandi volumi di dati, gli sviluppatori lo mettono alla prova su insiemi di dati separati, detti test set, per valutarne la reale capacità di generalizzazione, cioè di affrontare compiti nuovi e non visti prima.

Se però un modello viene addestrato anche su questi test – consapevolmente o meno – i risultati perdono valore, perché non misurano più la competenza reale ma solo la memoria.

È questo il cuore della polemica esplosa nel fine settimana: un post anonimo su un social cinese, firmato da un presunto ex dipendente dimessosi per protesta, ha accusato Meta di aver deliberatamente ottimizzato i suoi modelli per “fare bella figura” nei benchmark, nascondendone le reali debolezze.

Il post è stato rapidamente rilanciato su X e Reddit, alimentando discussioni accesissime tra ricercatori e sviluppatori.

Un Maverick “truccato”? Le differenze tra pubblico e privato

A dare consistenza ai sospetti, più che le parole di un anonimo, sono stati i test effettuati da utenti e ricercatori su Llama 4 Maverick, nella versione pubblica rispetto a quella ospitata sulla piattaforma LM Arena, un benchmark open utilizzato da diverse aziende per confrontare i propri modelli.

Secondo diverse testimonianze, la versione scaricabile di Maverick si comporterebbe in modo sensibilmente peggiore rispetto a quella testata pubblicamente su LM Arena, facendo pensare che Meta abbia usato per il benchmark una versione “sperimentale” e ottimizzata, non ancora rilasciata al pubblico.

È una strategia legittima? Per alcuni sì, purché venga dichiarato. Ma proprio la mancanza di trasparenza ha riacceso il dibattito: se un’azienda pubblica i risultati di un modello che poi risulta diverso da quello effettivamente disponibile, si rischia di ingannare gli sviluppatori e le aziende che su quei risultati basano le proprie scelte tecnologiche.

La replica di Meta: “Nessun addestramento di Llama sui test set”

A tentare di placare le polemiche è intervenuto lunedì Ahmad Al-Dahle, vicepresidente dell’area IA generativa di Meta, con un post su X in cui ha scritto: “Non è semplicemente vero che abbiamo addestrato Maverick e Scout sui set di test”. Al-Dahle ha definito la voce “non fondata” e ha negato qualsiasi forma di manipolazione delle valutazioni, affermando che Meta “non lo farebbe mai”.

 

Visualizza su Threads

 

Ha anche riconosciuto che le versioni del modello attualmente disponibili possono mostrare “qualità altalenante” a seconda del cloud provider che le ospita, spiegando che “abbiamo rilasciato i modelli non appena erano pronti, quindi ci vorranno alcuni giorni prima che tutte le implementazioni pubbliche siano completamente ottimizzate. Continueremo a lavorare sui bug fix e sull’onboarding dei nostri partner”.

Nel mondo dell’intelligenza artificiale, dove trasparenza, replicabilità e rigore scientifico sono le chiavi per costruire fiducia, l’ombra del sospetto rischia di pesare anche quando non ci sono prove concrete.

La stessa LM Arena, la piattaforma usata da Meta per mostrare i benchmark, ha fatto sapere che aggiornerà le proprie policy per evitare ambiguità simili in futuro.

Il caso Llama 4 non è ancora chiuso e la comunità AI lo sta seguendo con grande attenzione.

Se da un lato i modelli open source promettono maggiore equità e accesso, dall’altro le grandi aziende che li sviluppano restano sotto scrutinio, soprattutto quando i numeri pubblici sembrano troppo belli per essere veri.

 

POTREBBE INTERESSARTI

Trump Chip

Trump firma il dazio del 25% sui chip H200, ma Nvidia ringrazia

La Casa Bianca impone dazi sui semiconduttori di fascia alta in transito verso la Cina. Ma per Nvidia è una vittoria: finalmente può vendere ai clienti cinesi...
Sam Altman OpenAI Elon Musk

Sam Altman avvisa gli investitori: “Preparatevi al peggio da Musk”

In vista del processo di aprile, OpenAI prepara partner e finanziatori: aspettatevi “sparate a effetto” e “dichiarazioni fuori da ogni...
Mira Murati Thinking Machines

Il saccheggio di Thinking Machines: OpenAI si riprende tre co-fondatori

In meno di un anno la startup di Mira Murati perde quattro figure chiave. A quanto pare i soldi non comprano la lealtà neppure nell’industria...
pubblicità IA

La pubblicità bussa alla porta dei chatbot: Google apre, gli altri seguiranno

Il colosso di Mountain View sperimenta annunci in AI Mode. OpenAI e Perplexity osservano, Meta si prepara. E chi non vorrà spot dovrà probabilmente pagare

Brad Smith, presidente di Microsoft

Microsoft promette: i nostri data center non peseranno sulle bollette degli americani

L’azienda si impegna a non chiedere sgravi fiscali e a formare i residenti. Brad Smith: “Non chiediamo ai contribuenti di sovvenzionarci”.

Matthew McConaughey

McConaughey registra sé stesso come marchio contro i deepfake

Otto trademark approvati negli USA trasformano l’immagine dell’attore in un asset legale. Nel vuoto normativo sui deepfake, Hollywood ricorre...
Google AI Overviews

Google rimuove le AI Overviews per alcune ricerche mediche

Un’indagine del Guardian documenta errori potenzialmente letali nei riassunti sanitari del motore di ricerca. Il tempismo col lancio di ChatGPT Health solleva...
Google agente

Google entra nello shopping con gli agenti IA per i retailer

Con Gemini Enterprise for Customer Experience, Big G offre strumenti per costruire assistenti virtuali proprietari. Ma il commercio agentico è davvero dietro...
Apple Intelligence Siri

Siri parlerà con la voce di Gemini: Apple sceglie Google per l’IA

Annunciata ieri una partnership che riscrive gli equilibri del mercato. E anche una svolta storica che solleva domande sul futuro della privacy di Cupertino.

Nvidia CES 2026 Jensen Huag

Al CES 2026 la Silicon Valley ha scelto Trump

La Genesis Mission, Nvidia e il nuovo asse Washington-Silicon Valley: al Consumer Electronics Show è andata in scena la fine della neutralità tech.

Share This