L’articolo di The Verge si apre con due parole che non diranno nulla alla quasi totalità di noi: “Basilar ganglia”. Sono termini apparentemente tecnici, autorevoli, perfettamente inseriti in un referto medico generato dall’intelligenza artificiale. Peccato che si riferiscano a un’area del cervello che non esiste.
È quanto accaduto all’interno di un documento scientifico pubblicato da Google nel 2024 per presentare Med-Gemini, la sua nuova suite di modelli di IA per la sanità. Un errore sfuggito a decine di autori e revisori, passato inosservato nel blog ufficiale e recentemente corretto in silenzio solo dopo una segnalazione.
L’episodio riaccende un interrogativo sempre più urgente: cosa succede se i medici iniziano a fidarsi troppo dell’intelligenza artificiale, al punto da non mettere più in discussione ciò che leggono? E soprattutto: siamo davvero pronti a inserire queste tecnologie in contesti clinici, dove l’errore può essere una questione di vita o di morte?
Google e il modello che sa troppo (anche quando sbaglia)
L’obiettivo di Med-Gemini è ambizioso: creare report radiologici, analizzare cartelle cliniche elettroniche, rispondere a domande mediche complesse, individuare patologie e persino calcolare il rischio genetico di sviluppare malattie.
Le sue applicazioni dichiarate spaziano dalla radiologia alla patologia, dall’oftalmologia alla dermatologia, fino alla genomica. Tutto questo si basa su un addestramento condotto su grandi quantità di immagini mediche de-identificate (radiografie toraciche, sezioni TAC, vetrini patologici), accompagnate da etichette testuali per istruire il sistema.
Nel paper di lancio, Google aveva voluto dimostrare quanto fosse efficace Med-Gemini nel trovare anomalie non rilevate dagli stessi radiologi. E tra i casi presentati, spiccava la diagnosi di un “infarto vecchio ai gangli basilari sinistri”.
Il modello, in realtà, aveva scritto “basilar ganglia”, confondendo due concetti simili solo nel nome: “basal ganglia” (gangli della base) e “basilar artery” (arteria basilare). Una fusione che ha dato origine a un’entità anatomica immaginaria.
Per Google, si è trattato di un semplice refuso. Ma per i medici come Maulin Shah, Chief Medical Information Officer del sistema sanitario Providence, “due lettere fanno una grande differenza”. E l’episodio è solo la punta dell’iceberg.
L’allucinazione come sintomo sistemico
Quello che preoccupa davvero, secondo gli esperti, non è tanto il singolo errore, quanto la sua credibilità. L’IA non scrive mai “non so”. Quando sbaglia, lo fa con sicurezza. E proprio per questo è difficile che un medico, magari sotto pressione o abituato ad affidarsi alla tecnologia, si prenda il tempo per dubitare.
Il fenomeno è noto: si chiama confabulazione e, nel linguaggio clinico, indica un sintomo tipico della demenza o dell’alcolismo, in cui il paziente colma le lacune di memoria inventando dettagli plausibili. “È lo stesso comportamento che vediamo in questi modelli di IA”, spiega Shah. “Inventano cose che suonano corrette. E proprio per questo non ti accorgi che sono sbagliate”.
Lo scenario peggiore? Che queste allucinazioni si propaghino nei flussi di lavoro, si sedimentino nelle cartelle cliniche e influenzino decisioni diagnostiche o terapeutiche.
Come accaduto in un altro caso segnalato da Shah: un’IA aveva appreso da un errore umano (un referto che indicava per sbaglio “assenza di cancro” invece che “presenza”), e aveva iniziato a ripeterlo, contaminando i dati futuri e basando le sue decisioni su una premessa falsa.
La fiducia cieca è un errore
Secondo Jonathan Chen, docente alla Stanford School of Medicine, ci troviamo in una fase di adozione troppo rapida. “Queste tecnologie non sono ancora mature. Il rischio non è solo che sbaglino, ma che sembrino estremamente convincenti anche quando lo fanno”. È l’effetto del cosiddetto bias da automazione: più l’IA funziona, più ci fidiamo. E quando sbaglia, smettiamo di accorgercene.
Per Chen, l’idea che un sistema debba solo essere “bravo quanto un umano” è sbagliata. “Se è così, tanto vale continuare a usare le persone. Con un medico posso discutere, confrontarmi, migliorare. Con un’IA che ha inventato un’arteria, cosa faccio?”.
La soluzione? Piuttosto che sostituire i medici, l’IA dovrebbe affiancarli. E soprattutto, servono strumenti in grado di rilevare le allucinazioni in tempo reale, magari confrontando le risposte tra più modelli, o inserendo alert automatici nei passaggi più ambigui.
Ma fino a quando il settore non si darà regole precise, resteremo in quello che Pencina, Chief Data Scientist di Duke Health, definisce senza mezzi termini “il Far West dell’IA sanitaria”.
E forse è il caso di riprendere l’analogia più scomoda ma efficace: quella della guida autonoma. “L’auto ti ha portato in giro per mesi”, dice Chen, “così ti rilassi e ti addormenti al volante. Ma quando c’è in gioco la vita di qualcuno, forse non è il caso di chiudere gli occhi”.


