Numeri gonfiati? xAI e OpenAI si scontrano sull’IA di Musk

da | 23 Feb 2025 | IA

Tempo di lettura: 2 minuti

Le aziende che sviluppano intelligenze artificiali si sfidano non solo con nuovi modelli ma anche con i numeri che li accompagnano.

Uno scontro tra OpenAI e xAI, la società di Elon Musk, ha riacceso il dibattito sulla trasparenza dei test che misurano le capacità delle IA.

Tutto è iniziato quando xAI ha pubblicato un grafico che mostra il suo nuovo modello, Grok 3, superare l’intelligenza artificiale di OpenAI in un test di matematica chiamato AIME 2025.

Il problema? Secondo alcuni esperti, il confronto non sarebbe stato del tutto corretto.

xAI: cos’è successo?

I modelli di intelligenza artificiale vengono valutati attraverso dei benchmark, cioè test standardizzati che ne misurano le prestazioni.

Uno di questi è l’AIME 2025, un test basato su domande matematiche avanzate. xAI ha mostrato che il suo Grok 3 ottiene risultati migliori rispetto a o3-mini-high, uno dei modelli di OpenAI.

Alcuni ricercatori hanno però notato una stranezza: il confronto ometteva un aspetto importante. OpenAI ha infatti osservato che il grafico di xAI non includeva i punteggi di o3-mini-high in una modalità chiamata cons@64.

Cosa significa “cons@64”?

Semplificando, è un metodo che permette all’IA di provare a rispondere fino a 64 volte alla stessa domanda, prendendo per buona la risposta più frequente.

Questo approccio tende a migliorare i punteggi dei modelli. Omettendo questo dato dal confronto, xAI ha dato l’impressione che Grok 3 fosse superiore quando in realtà, sostiene OpenAI, non lo è.

Guardando il primo tentativo di risposta dato dai modelli (metrica @1), i risultati cambiano: Grok 3 ottiene punteggi più bassi rispetto al modello di OpenAI e, in un caso, anche rispetto a una versione precedente dell’IA rivale.

Una battaglia che va avanti da tempo

Igor Babushkin, cofondatore di xAI, ha difeso l’azienda sostenendo che anche OpenAI, in passato, ha mostrato grafici poco trasparenti per esaltare i propri modelli.

Nel frattempo, il ricercatore indipendente Nathan Lambert ha pubblicato un confronto più completo, includendo tutti i dati mancanti.

Ma il vero punto della questione, come ha sottolineato lo scienziato Nathan Lambert, è che i numeri dei benchmark raccontano solo una parte della storia. Quello che non viene mai dichiarato apertamente è quanto potere di calcolo (e quindi quanti soldi) servano per ottenere certi risultati.

In altre parole, una IA può sembrare migliore solo perché ha avuto più risorse per allenarsi, un fattore che non traspare dai grafici pubblicati dalle aziende.

E così, il dibattito resta aperto: chi può davvero proclamarsi la “IA più intelligente del mondo”?

POTREBBE INTERESSARTI

amazon logo
• ⏱ 3 min

I dipendenti Amazon usano l’IA anche quando non serve, per sembrare efficienti

Con 200 miliardi di investimenti da giustificare, Amazon vuole dati sull’utilizzo. E i suoi dipendenti glieli danno (ma non nel modo atteso).

nadella sutskever altman
, • ⏱ 3 min

Musk vs. Altman: le testimonianze di Nadella e Sutskever

Il CEO di Microsoft definisce “roba da dilettanti” il tentativo di rimozione del 2023; l’ex chief scientist di OpenAI conferma che Altman sabotava i...
OpenAI
, • ⏱ 2 min

OpenAI vuole ingegneri nelle aziende: nasce la Deployment Company

L’acquisizione di Tomoro porta 150 specialisti pronti al lavoro. Sullo sfondo, la corsa con Anthropic per conquistare il mercato enterprise.

lavoratori cina
• ⏱ 2 min

In Cina non si licenzia più per colpa dell’IA

Un tribunale di Hangzhou stabilisce che l’automazione non è una causa legale di licenziamento. E le imprese devono fare i conti con una giurisprudenza in...
Fairwater IA data center Microsoft compute tax
, • ⏱ 4 min

La “compute tax”: ecco perché si torna a parlare di tassare l’IA

Tra redistribuzione e fuga di capitali, il dibattito sulla tassazione dell’IA scalda la campagna elettorale americana.

SpaceX Anthropic
• ⏱ 3 min

Anthropic affitterà i server di Musk

Colossus 1, il data center da centinaia di migliaia di chip Nvidia, cambia inquilino. E la corsa alla potenza di calcolo di Anthropic aggiunge un tassello...
Shivon Zilis Elon Musk
, • ⏱ 5 min

Secondo Shivon Zilis, Musk voleva fondere OpenAI in Tesla

Le testimonianze della compagna di Musk, Shivon Zilis, insieme a quelle di Brockman e Murati, ricostruiscono i sei mesi del 2017-2018 in cui il fondatore di Tesla tentò...
atlas
• ⏱ 3 min

Atlas di Boston Dynamics ora fa ginnastica

L’azienda, posseduta da Hyundai, spinge la robotica per il lavoro in fabbrica. Lo schieramento negli stabilimenti partirà dal 2028.

Dario Amodei Anthropic Claude
, • ⏱ 3 min

Anthropic lancia dieci agenti finanziari e si allea con Goldman e Blackstone

Dario Amodei e Jamie Dimon sul palco insieme: la finanza è il nuovo fronte della guerra tra Anthropic e OpenAI?

Greg Brockman
, • ⏱ 3 min

OpenAI a processo: i 30 miliardi di Brockman sono un problema

Il processo Musk entra nella seconda settimana con un’arma inattesa: le pagine del diario di Greg Brockman scritte durante la lotta per il controllo del...
Share This