Lo sviluppo di sistemi come ChatGPT e Gemini corre sempre più velocemente e le IA sono utilizzate frequentemente per svolgere lavori noiosi. Ma c’è chi ha in mente ben altri compiti, come il gruppo di ricercatori che ha creato in laboratorio i primi worm basati su IA generativa, in grado di infettare sistemi diversi, sfruttando falle proprie delle IA.
Come riporta ArsTechnica, il gruppo guidato dal ricercatore Ben Nassi ha così dimostrato che è possibile far creare alla IA set di istruzioni potenzialmente dannose per i sistemi e in grado di infettare con malware le macchine per rubare dati personali, carte di credito e dati sensibili in generale. “In pratica significa che ora si ha la possibilità di condurre o eseguire un nuovo tipo di attacco informatico che non è mai stato visto prima“, spiega il ricercatore della Cornell Tech.
Nassi, insieme ai colleghi ricercatori Stav Cohen e Ron Bitton, ha creato il worm, soprannominato Morris II, in omaggio all’originale worm informatico Morris che causò il caos in Internet nel 1988.
COME SI GENERANO I WORM
La maggior parte dei sistemi di intelligenza artificiale generativa funziona grazie all’invio di suggerimenti, istruzioni testuali che indicano agli strumenti di rispondere a una domanda o di creare un’immagine.
Tuttavia, questi suggerimenti possono anche essere usati come “armi” contro il sistema, inducendolo a non rispettare le regole di sicurezza e a diffondere contenuti quali spam, mentre gli attacchi di tipo prompt injection (ovvero dove nei suggerimenti sono inseriti pacchetti di istruzioni) possono fornire istruzioni segrete a un chatbot.
Ad esempio, un aggressore può nascondere del testo in una pagina web per dire a un LLM (Large Language Model) di agire come un truffatore e chiedere i dati bancari. I ricercatori hanno mostrato anche un video per avallare la loro ricerca, in cui spiegano il funzionamento di queste falle di sicurezza sfruttabili per creare worm che possono autoreplicarsi e infettare vari sistemi.
Per creare il worm dell’IA, i ricercatori si sono rivolti a un cosiddetto “adversarial self-replicating prompt”. Si tratta di un prompt che innesca il modello di IA generativa per produrre, nella sua risposta, un altro prompt.
In breve, all’intelligenza artificiale viene chiesto di produrre una serie di ulteriori istruzioni nelle sue risposte. Si tratta di un’operazione sostanzialmente simile ai tradizionali attacchi di tipo SQL injection e buffer overflow (tipi di attacchi che sfruttano istruzioni di database SQL oppure che tendono a “sovraccaricare” il buffer di trasmissione dei dati di un sistema), affermano i ricercatori.
Per dimostrare il funzionamento del worm, i ricercatori hanno creato un sistema di posta elettronica in grado di inviare e ricevere messaggi utilizzando l’intelligenza artificiale generativa, collegandosi a ChatGPT, Gemini e all’LLM open source LlaVA. Hanno trovato due sistemi per sfruttare queste falle: il primo un prompt auto-replicante basato sul testo, il secondo inserendo un prompt auto-replicante in una immagine
I ricercatori hanno creato una mail che va ad infettare il database esterno a cui attinge l’IA generativa per cercare dati esterni (GPT-4 e Gemini Pro in questo caso), con un set di istruzioni nascoste che agisce nel RAG (Retrieval-Augmented Generation). Questo è il database dove l’IA che crea la mail di risposta va automaticamente a recuperare i dati infetti, replicando le istruzioni e inviando eventuali dati personali o sensibili.
Nel secondo metodo, un’immagine con un prompt malevolo incorporato fa sì che l’assistente di posta elettronica inoltri il messaggio ad altri. “Codificando il prompt auto-replicante nell’immagine, qualsiasi tipo di immagine contenente spam, materiale di abuso o persino propaganda può essere inoltrata a nuovi clienti dopo l’invio dell’email iniziale” affermano.
COME DIFENDERSI
OpenAI ha reagito alla ricerca affermando che i propri sviluppatori sono già a lavoro per creare sistemi più sicuri; Google, invece, non ha commentato i risultati presentati dai ricercatori. Vari esperti di sicurezza informatica, tra cui Sahar Abdelnabi, ricercatore presso il CISPA Helmholtz Center for Information Security in Germania, hanno affermato che i worm da IA generativa sono un rischio concreto di cui tenere conto. Il gruppo di ricerca di Nassi è convinto che nei prossimi due o tre anni vedremo proliferare questi worm.
Essendo un campo quasi inesplorato, al momento i modi per evitare rischi del genere sono abbastanza classici. Secondo Adam Swanda, ricercatore sulle minacce presso l’azienda di sicurezza aziendale Robust Intelligence, resta importante il controllo degli esseri umani, che si devono assicurare che le IA non siano autorizzate a intraprendere azioni senza approvazione.
Siamo comunque di fronte ad un nuovo step nella constante evoluzione della cybersecurity, dove l’IA può essere un alleato ma anche un malefico Cavallo di Troia.


