Meta ha davvero gonfiato i benchmark di Llama 4?

da | 8 Apr 2025 | IA

Tempo di lettura: 3 minuti

Llama è il nome della famiglia di modelli linguistici open source sviluppata da Meta, presentata fin dall’inizio come l’alternativa trasparente e accessibile ai giganti proprietari dell’IA come OpenAI e Google DeepMind.

La quarta generazione sta attirando grande attenzione sia per la sua promessa di capacità conversazionali avanzate, sia per l’ambizione dichiarata di Meta di farne una base solida per il futuro del suo ecosistema IA, incluso l’assistente integrato nei prodotti Facebook, Instagram e WhatsApp.

Tra i modelli più attesi c’è Llama 4 Maverick, affiancato da Llama 4 Scout, due varianti concepite rispettivamente per eccellere nelle conversazioni e nei compiti più strutturati.

Ma proprio quando l’hype mediatico stava crescendo, ecco che si è diffuso un sospetto inquietante: Meta avrebbe truccato i benchmark, ossia i test comparativi che stabiliscono l’efficacia e le prestazioni di un modello AI.

Che cos’è un ‘test set’ e perché conta

Per capire l’accusa, bisogna entrare per un attimo nel funzionamento dei benchmark di intelligenza artificiale.

Dopo aver addestrato un modello su grandi volumi di dati, gli sviluppatori lo mettono alla prova su insiemi di dati separati, detti test set, per valutarne la reale capacità di generalizzazione, cioè di affrontare compiti nuovi e non visti prima.

Se però un modello viene addestrato anche su questi test – consapevolmente o meno – i risultati perdono valore, perché non misurano più la competenza reale ma solo la memoria.

È questo il cuore della polemica esplosa nel fine settimana: un post anonimo su un social cinese, firmato da un presunto ex dipendente dimessosi per protesta, ha accusato Meta di aver deliberatamente ottimizzato i suoi modelli per “fare bella figura” nei benchmark, nascondendone le reali debolezze.

Il post è stato rapidamente rilanciato su X e Reddit, alimentando discussioni accesissime tra ricercatori e sviluppatori.

Un Maverick “truccato”? Le differenze tra pubblico e privato

A dare consistenza ai sospetti, più che le parole di un anonimo, sono stati i test effettuati da utenti e ricercatori su Llama 4 Maverick, nella versione pubblica rispetto a quella ospitata sulla piattaforma LM Arena, un benchmark open utilizzato da diverse aziende per confrontare i propri modelli.

Secondo diverse testimonianze, la versione scaricabile di Maverick si comporterebbe in modo sensibilmente peggiore rispetto a quella testata pubblicamente su LM Arena, facendo pensare che Meta abbia usato per il benchmark una versione “sperimentale” e ottimizzata, non ancora rilasciata al pubblico.

È una strategia legittima? Per alcuni sì, purché venga dichiarato. Ma proprio la mancanza di trasparenza ha riacceso il dibattito: se un’azienda pubblica i risultati di un modello che poi risulta diverso da quello effettivamente disponibile, si rischia di ingannare gli sviluppatori e le aziende che su quei risultati basano le proprie scelte tecnologiche.

La replica di Meta: “Nessun addestramento di Llama sui test set”

A tentare di placare le polemiche è intervenuto lunedì Ahmad Al-Dahle, vicepresidente dell’area IA generativa di Meta, con un post su X in cui ha scritto: “Non è semplicemente vero che abbiamo addestrato Maverick e Scout sui set di test”. Al-Dahle ha definito la voce “non fondata” e ha negato qualsiasi forma di manipolazione delle valutazioni, affermando che Meta “non lo farebbe mai”.

 

Visualizza su Threads

 

Ha anche riconosciuto che le versioni del modello attualmente disponibili possono mostrare “qualità altalenante” a seconda del cloud provider che le ospita, spiegando che “abbiamo rilasciato i modelli non appena erano pronti, quindi ci vorranno alcuni giorni prima che tutte le implementazioni pubbliche siano completamente ottimizzate. Continueremo a lavorare sui bug fix e sull’onboarding dei nostri partner”.

Nel mondo dell’intelligenza artificiale, dove trasparenza, replicabilità e rigore scientifico sono le chiavi per costruire fiducia, l’ombra del sospetto rischia di pesare anche quando non ci sono prove concrete.

La stessa LM Arena, la piattaforma usata da Meta per mostrare i benchmark, ha fatto sapere che aggiornerà le proprie policy per evitare ambiguità simili in futuro.

Il caso Llama 4 non è ancora chiuso e la comunità AI lo sta seguendo con grande attenzione.

Se da un lato i modelli open source promettono maggiore equità e accesso, dall’altro le grandi aziende che li sviluppano restano sotto scrutinio, soprattutto quando i numeri pubblici sembrano troppo belli per essere veri.

 

POTREBBE INTERESSARTI

Sundar Pichai. Foto: Sanjay Rawat
, , • ⏱ 3 min

Soci e rivali: Google e SpaceX trattano per i data center in orbita

Google è azionista di SpaceX da anni. Ora le due aziende potrebbero diventare partner sui lanci (e concorrenti nello spazio).

Trump USA Xi Jinping Cina
, , • ⏱ 4 min

Trump e Xi parlano di IA, ma il dialogo resta difficile

A Pechino l’intelligenza artificiale entra per la prima volta nell’agenda bilaterale USA-Cina. Le aspettative però sono basse: troppa rivalità, troppa...
sam altman reuters
, • ⏱ 4 min

Altman in aula: “Musk voleva il 90% di OpenAI”

Il CEO di OpenAI testimonia su donazioni, equity e metodi manageriali che “hanno devastato la cultura” del laboratorio.

amazon logo
• ⏱ 3 min

I dipendenti Amazon usano l’IA anche quando non serve, per sembrare efficienti

Con 200 miliardi di investimenti da giustificare, Amazon vuole dati sull’utilizzo. E i suoi dipendenti glieli danno (ma non nel modo atteso).

nadella sutskever altman
, • ⏱ 3 min

Musk vs. Altman: le testimonianze di Nadella e Sutskever

Il CEO di Microsoft definisce “roba da dilettanti” il tentativo di rimozione del 2023; l’ex chief scientist di OpenAI conferma che Altman sabotava i...
OpenAI
, • ⏱ 2 min

OpenAI vuole ingegneri nelle aziende: nasce la Deployment Company

L’acquisizione di Tomoro porta 150 specialisti pronti al lavoro. Sullo sfondo, la corsa con Anthropic per conquistare il mercato enterprise.

lavoratori cina
• ⏱ 2 min

In Cina non si licenzia più per colpa dell’IA

Un tribunale di Hangzhou stabilisce che l’automazione non è una causa legale di licenziamento. E le imprese devono fare i conti con una giurisprudenza in...
Fairwater IA data center Microsoft compute tax
, • ⏱ 4 min

La “compute tax”: ecco perché si torna a parlare di tassare l’IA

Tra redistribuzione e fuga di capitali, il dibattito sulla tassazione dell’IA scalda la campagna elettorale americana.

SpaceX Anthropic
• ⏱ 3 min

Anthropic affitterà i server di Musk

Colossus 1, il data center da centinaia di migliaia di chip Nvidia, cambia inquilino. E la corsa alla potenza di calcolo di Anthropic aggiunge un tassello...
Shivon Zilis Elon Musk
, • ⏱ 5 min

Secondo Shivon Zilis, Musk voleva fondere OpenAI in Tesla

Le testimonianze della compagna di Musk, Shivon Zilis, insieme a quelle di Brockman e Murati, ricostruiscono i sei mesi del 2017-2018 in cui il fondatore di Tesla tentò...
Share This