Numeri gonfiati? xAI e OpenAI si scontrano sull’IA di Musk

da | 23 Feb 2025 | IA

Le aziende che sviluppano intelligenze artificiali si sfidano non solo con nuovi modelli ma anche con i numeri che li accompagnano.

Uno scontro tra OpenAI e xAI, la società di Elon Musk, ha riacceso il dibattito sulla trasparenza dei test che misurano le capacità delle IA.

Tutto è iniziato quando xAI ha pubblicato un grafico che mostra il suo nuovo modello, Grok 3, superare l’intelligenza artificiale di OpenAI in un test di matematica chiamato AIME 2025.

Il problema? Secondo alcuni esperti, il confronto non sarebbe stato del tutto corretto.

xAI: cos’è successo?

I modelli di intelligenza artificiale vengono valutati attraverso dei benchmark, cioè test standardizzati che ne misurano le prestazioni.

Uno di questi è l’AIME 2025, un test basato su domande matematiche avanzate. xAI ha mostrato che il suo Grok 3 ottiene risultati migliori rispetto a o3-mini-high, uno dei modelli di OpenAI.

Alcuni ricercatori hanno però notato una stranezza: il confronto ometteva un aspetto importante. OpenAI ha infatti osservato che il grafico di xAI non includeva i punteggi di o3-mini-high in una modalità chiamata cons@64.

Cosa significa “cons@64”?

Semplificando, è un metodo che permette all’IA di provare a rispondere fino a 64 volte alla stessa domanda, prendendo per buona la risposta più frequente.

Questo approccio tende a migliorare i punteggi dei modelli. Omettendo questo dato dal confronto, xAI ha dato l’impressione che Grok 3 fosse superiore quando in realtà, sostiene OpenAI, non lo è.

Guardando il primo tentativo di risposta dato dai modelli (metrica @1), i risultati cambiano: Grok 3 ottiene punteggi più bassi rispetto al modello di OpenAI e, in un caso, anche rispetto a una versione precedente dell’IA rivale.

Una battaglia che va avanti da tempo

Igor Babushkin, cofondatore di xAI, ha difeso l’azienda sostenendo che anche OpenAI, in passato, ha mostrato grafici poco trasparenti per esaltare i propri modelli.

Nel frattempo, il ricercatore indipendente Nathan Lambert ha pubblicato un confronto più completo, includendo tutti i dati mancanti.

Ma il vero punto della questione, come ha sottolineato lo scienziato Nathan Lambert, è che i numeri dei benchmark raccontano solo una parte della storia. Quello che non viene mai dichiarato apertamente è quanto potere di calcolo (e quindi quanti soldi) servano per ottenere certi risultati.

In altre parole, una IA può sembrare migliore solo perché ha avuto più risorse per allenarsi, un fattore che non traspare dai grafici pubblicati dalle aziende.

E così, il dibattito resta aperto: chi può davvero proclamarsi la “IA più intelligente del mondo”?

POTREBBE INTERESSARTI

Brad Smith, presidente di Microsoft

Microsoft promette: i nostri data center non peseranno sulle bollette degli americani

L’azienda si impegna a non chiedere sgravi fiscali e a formare i residenti. Brad Smith: “Non chiediamo ai contribuenti di sovvenzionarci”.

Matthew McConaughey

McConaughey registra sé stesso come marchio contro i deepfake

Otto trademark approvati negli USA trasformano l’immagine dell’attore in un asset legale. Nel vuoto normativo sui deepfake, Hollywood ricorre...
Google AI Overviews

Google rimuove le AI Overviews per alcune ricerche mediche

Un’indagine del Guardian documenta errori potenzialmente letali nei riassunti sanitari del motore di ricerca. Il tempismo col lancio di ChatGPT Health solleva...
Google agente

Google entra nello shopping con gli agenti IA per i retailer

Con Gemini Enterprise for Customer Experience, Big G offre strumenti per costruire assistenti virtuali proprietari. Ma il commercio agentico è davvero dietro...
Apple Intelligence Siri

Siri parlerà con la voce di Gemini: Apple sceglie Google per l’IA

Annunciata ieri una partnership che riscrive gli equilibri del mercato. E anche una svolta storica che solleva domande sul futuro della privacy di Cupertino.

Nvidia CES 2026 Jensen Huag

Al CES 2026 la Silicon Valley ha scelto Trump

La Genesis Mission, Nvidia e il nuovo asse Washington-Silicon Valley: al Consumer Electronics Show è andata in scena la fine della neutralità tech.

Harry Potter e la Pietra Filosofale

I ricercatori sono riusciti a estrarre Harry Potter (quasi per intero) dai principali LLM

Una ricerca di Stanford dimostra che Claude, GPT-4.1, Gemini e Grok hanno memorizzato interi libri protetti da copyright. E possono riprodurli quasi parola per...
Grok

Grok, la risposta di Musk ai deepfake è farli pagare

Dall’Indonesia al Regno Unito, i governi reagiscono ai deepfake di Grok. Musk attacca gli inglesi: “Fascisti”. Ma intanto le immagini abusive...
Character

Google e Character.AI, accordi milionari per evitare il processo

Le famiglie ottengono risarcimenti per i suicidi legati al chatbot, ma il vuoto normativo sulla responsabilità dell’IA generativa resta intatto.

Andreessen Horowitz

Il secolo americano di Andreessen Horowitz: 15 miliardi per blindare il futuro tech

Dalla difesa all’intelligenza artificiale: come il colosso di Menlo Park sta puntando a riscrivere il rapporto tra capitale privato, sovranità e potere.

Share This