L’IA medica di Google ha creato una patologia inesistente

da | 5 Ago 2025 | IA

Tempo di lettura: 3 minuti

L’articolo di The Verge si apre con due parole che non diranno nulla alla quasi totalità di noi: “Basilar ganglia”. Sono termini apparentemente tecnici, autorevoli, perfettamente inseriti in un referto medico generato dall’intelligenza artificiale. Peccato che si riferiscano a un’area del cervello che non esiste.

È quanto accaduto all’interno di un documento scientifico pubblicato da Google nel 2024 per presentare Med-Gemini, la sua nuova suite di modelli di IA per la sanità. Un errore sfuggito a decine di autori e revisori, passato inosservato nel blog ufficiale e recentemente corretto in silenzio solo dopo una segnalazione.

L’episodio riaccende un interrogativo sempre più urgente: cosa succede se i medici iniziano a fidarsi troppo dell’intelligenza artificiale, al punto da non mettere più in discussione ciò che leggono? E soprattutto: siamo davvero pronti a inserire queste tecnologie in contesti clinici, dove l’errore può essere una questione di vita o di morte?

Google e il modello che sa troppo (anche quando sbaglia)

L’obiettivo di Med-Gemini è ambizioso: creare report radiologici, analizzare cartelle cliniche elettroniche, rispondere a domande mediche complesse, individuare patologie e persino calcolare il rischio genetico di sviluppare malattie.

Le sue applicazioni dichiarate spaziano dalla radiologia alla patologia, dall’oftalmologia alla dermatologia, fino alla genomica. Tutto questo si basa su un addestramento condotto su grandi quantità di immagini mediche de-identificate (radiografie toraciche, sezioni TAC, vetrini patologici), accompagnate da etichette testuali per istruire il sistema.

Nel paper di lancio, Google aveva voluto dimostrare quanto fosse efficace Med-Gemini nel trovare anomalie non rilevate dagli stessi radiologi. E tra i casi presentati, spiccava la diagnosi di un “infarto vecchio ai gangli basilari sinistri”.

Il modello, in realtà, aveva scritto “basilar ganglia”, confondendo due concetti simili solo nel nome: “basal ganglia” (gangli della base) e “basilar artery” (arteria basilare). Una fusione che ha dato origine a un’entità anatomica immaginaria.

Per Google, si è trattato di un semplice refuso. Ma per i medici come Maulin Shah, Chief Medical Information Officer del sistema sanitario Providence, “due lettere fanno una grande differenza”. E l’episodio è solo la punta dell’iceberg.

L’allucinazione come sintomo sistemico

Quello che preoccupa davvero, secondo gli esperti, non è tanto il singolo errore, quanto la sua credibilità. L’IA non scrive mai “non so”. Quando sbaglia, lo fa con sicurezza. E proprio per questo è difficile che un medico, magari sotto pressione o abituato ad affidarsi alla tecnologia, si prenda il tempo per dubitare.

Il fenomeno è noto: si chiama confabulazione e, nel linguaggio clinico, indica un sintomo tipico della demenza o dell’alcolismo, in cui il paziente colma le lacune di memoria inventando dettagli plausibili. “È lo stesso comportamento che vediamo in questi modelli di IA”, spiega Shah. “Inventano cose che suonano corrette. E proprio per questo non ti accorgi che sono sbagliate”.

Lo scenario peggiore? Che queste allucinazioni si propaghino nei flussi di lavoro, si sedimentino nelle cartelle cliniche e influenzino decisioni diagnostiche o terapeutiche.

Come accaduto in un altro caso segnalato da Shah: un’IA aveva appreso da un errore umano (un referto che indicava per sbaglio “assenza di cancro” invece che “presenza”), e aveva iniziato a ripeterlo, contaminando i dati futuri e basando le sue decisioni su una premessa falsa.

La fiducia cieca è un errore

Secondo Jonathan Chen, docente alla Stanford School of Medicine, ci troviamo in una fase di adozione troppo rapida. “Queste tecnologie non sono ancora mature. Il rischio non è solo che sbaglino, ma che sembrino estremamente convincenti anche quando lo fanno”. È l’effetto del cosiddetto bias da automazione: più l’IA funziona, più ci fidiamo. E quando sbaglia, smettiamo di accorgercene.

Per Chen, l’idea che un sistema debba solo essere “bravo quanto un umano” è sbagliata. “Se è così, tanto vale continuare a usare le persone. Con un medico posso discutere, confrontarmi, migliorare. Con un’IA che ha inventato un’arteria, cosa faccio?”.

La soluzione? Piuttosto che sostituire i medici, l’IA dovrebbe affiancarli. E soprattutto, servono strumenti in grado di rilevare le allucinazioni in tempo reale, magari confrontando le risposte tra più modelli, o inserendo alert automatici nei passaggi più ambigui.

Ma fino a quando il settore non si darà regole precise, resteremo in quello che Pencina, Chief Data Scientist di Duke Health, definisce senza mezzi termini “il Far West dell’IA sanitaria”.

E forse è il caso di riprendere l’analogia più scomoda ma efficace: quella della guida autonoma. “L’auto ti ha portato in giro per mesi”, dice Chen, “così ti rilassi e ti addormenti al volante. Ma quando c’è in gioco la vita di qualcuno, forse non è il caso di chiudere gli occhi”.

POTREBBE INTERESSARTI

Sam Altman OpenAI Merge Labs
• ⏱ 3 min

Sam Altman risponde all’articolo “incendiario” del New Yorker

Il leader di OpenAI, dopo l’assalto alla sua abitazioni, risponde alle pesanti accuse mosse dalla celebre testata americana.

anthropic mythos
• ⏱ 3 min

Anthropic ha convocato dei teologi per insegnare l’etica a Claude

Anthropic ha organizzato un vertice riservato con leader cattolici e protestanti per affrontare le domande che gli ingegneri non riescono a risolvere da soli.

Matt Garman Amazon Web Services AWS
, • ⏱ 3 min

AWS spiega perché puntare sui concorrenti è il suo mestiere

Matt Garman investe in OpenAI e Anthropic ma rassicura tutti: competere coi propri partner è una tradizione di AWS. Ma l’obiettivo è introdurre i modelli...
Peter Steinberger OpenClaw
• ⏱ 3 min

Anthropic sospende l’account del fondatore di OpenClaw

Steinberger ora lavora per OpenAI. Dietro la sospensione lampo, una disputa che riguarda prezzi, agenti e la competizione tra piattaforme.

amodei vs altman openai anthropic
, • ⏱ 3 min

OpenAI all’attacco: nuovi piani e miliardi per la guerra del ‘compute’

Anthropic guadagna terreno, OpenAI risponde su tre fronti: prodotto, infrastruttura e narrazione. Una fila indietro, Meta spende 21 miliardi per non restare...
Aravind Srinivas Perplexity
, • ⏱ 3 min

I ricavi mensili di Perplexity crescono del 50%

Jensen Huang la promuove dal palco, gli editori la citano in giudizio. Ma Perplexity naviga tra endorsement e contenziosi.

Alexandr Wang Meta Muse Spark
• ⏱ 3 min

Meta lancia Muse Spark e riparte da zero nella corsa all’IA

Muse Spark è disponibile gratis, funziona con più agenti in parallelo e punta anche alla salute. Ma la privacy resta un capitolo aperto.

Project Glasswing: Anthropic
• ⏱ 4 min

Project Glasswing: Anthropic e i big tech uniti per la cybersicurezza

Claude Mythos Preview ha scoperto migliaia di falle zero-day, alcune vecchie di decenni. E ora Anthropic lo distribuisce solo a partner selezionati per correre ai...
intel elon musk terafab
, • ⏱ 3 min

Intel entra in Terafab per robotica e data center

Terafab promette un terawatt di potenza di calcolo all’anno. Intel ci scommette la sua ristrutturazione.

data center Big Tech
• ⏱ 3 min

Acqua ed energia: le Big Tech sotto pressione degli investitori

Mille miliardi di litri d’acqua consumati nel 2025: l’espansione dell’IA ha un costo ambientale che i mercati cominciano a valutare.

Share This