Anthropic sfida a testare il suo nuovo sistema di sicurezza

da | 7 Feb 2025 | IA

Tempo di lettura: 2 minuti

Anthropic ha presentato Constitutional Classifiers, un innovativo sistema di sicurezza basato sull’intelligenza artificiale che ha già dato risultati promettenti.

Ora l’azienda invita il pubblico a metterlo alla prova, dopo che ha resistito a oltre 3.000 ore di tentativi falliti di violazione.

A prova di jailbreak

Il sistema è progettato per proteggere Claude 3.5 Sonnet, l’IA di Anthropic, e gli LLM alla base del suo sviluppo.

In particolare, utilizza l’intelligenza artificiale per generare dati di addestramento in più lingue e stili di scrittura, migliorando la capacità di rilevare tentativi di violazione.

Uno dei metodi più utilizzati per aggirare la sicurezza delle IA sfrutta le vulnerabilità insite nei modelli linguistici di grandi dimensioni (LLM), che, essendo basati su vasti database, possono offrire punti d’accesso non previsti.

Al centro di queste tecniche c’è il concetto di jailbreak, ovvero la possibilità di rimuovere le restrizioni imposte dai produttori per ottenere risposte dannose o pericolose. Questo compromette l’obiettivo principale dell’intelligenza artificiale, ovvero essere una tecnologia di supporto alle persone.

Contro il red-teaming automatizzato

Il Constitutional Classifier di Anthropic si basa su un principio simile alla Constitutional AI, già utilizzata per costruire Claude. Il sistema si fonda su un insieme di regole in linguaggio naturale che stabiliscono quali contenuti siano accettabili e quali vietati.

Ad esempio, può consentire la condivisione di informazioni sui farmaci più comuni ma bloccare dettagli sull’acquisizione di sostanze chimiche regolamentate.

Per rafforzare questa protezione, Anthropic ha sviluppato un processo in cui Claude genera automaticamente richieste di esempio che potrebbero portare a risposte sia accettabili che inaccettabili in base alla sua “costituzione”.

Queste richieste vengono poi tradotte in più lingue e modificate seguendo schemi tipici dei jailbreak noti, per testarne la resistenza. A queste si aggiungono tentativi di attacco tramite red-teaming automatizzato, un approccio alla sicurezza in cui sistemi AI simulano attacchi informatici per individuare vulnerabilità.

A differenza del red-teaming tradizionale, che coinvolge esperti umani, il processo automatizzato permette di eseguire test su larga scala e in modo continuo.

I risultati finora ottenuti sono notevoli: su 10.000 tentativi di jailbreak avanzato, il sistema ha bloccato il 95,6% degli attacchi, contro il solo 14% della versione non protetta di Claude.

Una ‘taglia’ sulla testa di Anthropic

Per testare ulteriormente la solidità del sistema, da agosto Anthropic ha avviato un programma di bug bounty attraverso HackerOne, offrendo fino a 15.000 dollari a chiunque riuscisse a progettare un jailbreak universale capace di aggirare le protezioni e ottenere risposte a 10 domande proibite.

Finora, 183 esperti hanno dedicato oltre 3.000 ore a tentare l’impresa, ma il miglior risultato ottenuto ha permesso di ottenere risposte solo per cinque delle 10 domande.

I test si concluderanno il 10 febbraio, ma i risultati preliminari sembrano confermare l’efficacia del sistema in termini di sicurezza. Con l’evoluzione continua dei modelli di IA, diventa sempre più cruciale prevenire manipolazioni che potrebbero causare danni.

Mentre la maggior parte delle aziende punta sulla formazione per migliorare la sicurezza delle IA, Anthropic ha scelto un approccio innovativo, utilizzando la stessa intelligenza artificiale per sviluppare un sistema di protezione avanzato.

Nei prossimi mesi sarà interessante vedere se questa strategia aprirà nuove prospettive per la sicurezza informatica.

POTREBBE INTERESSARTI

Sundar Pichai. Foto: Sanjay Rawat
, , • ⏱ 3 min

Soci e rivali: Google e SpaceX trattano per i data center in orbita

Google è azionista di SpaceX da anni. Ora le due aziende potrebbero diventare partner sui lanci (e concorrenti nello spazio).

Trump USA Xi Jinping Cina
, , • ⏱ 4 min

Trump e Xi parlano di IA, ma il dialogo resta difficile

A Pechino l’intelligenza artificiale entra per la prima volta nell’agenda bilaterale USA-Cina. Le aspettative però sono basse: troppa rivalità, troppa...
sam altman reuters
, • ⏱ 4 min

Altman in aula: “Musk voleva il 90% di OpenAI”

Il CEO di OpenAI testimonia su donazioni, equity e metodi manageriali che “hanno devastato la cultura” del laboratorio.

amazon logo
• ⏱ 3 min

I dipendenti Amazon usano l’IA anche quando non serve, per sembrare efficienti

Con 200 miliardi di investimenti da giustificare, Amazon vuole dati sull’utilizzo. E i suoi dipendenti glieli danno (ma non nel modo atteso).

nadella sutskever altman
, • ⏱ 3 min

Musk vs. Altman: le testimonianze di Nadella e Sutskever

Il CEO di Microsoft definisce “roba da dilettanti” il tentativo di rimozione del 2023; l’ex chief scientist di OpenAI conferma che Altman sabotava i...
OpenAI
, • ⏱ 2 min

OpenAI vuole ingegneri nelle aziende: nasce la Deployment Company

L’acquisizione di Tomoro porta 150 specialisti pronti al lavoro. Sullo sfondo, la corsa con Anthropic per conquistare il mercato enterprise.

lavoratori cina
• ⏱ 2 min

In Cina non si licenzia più per colpa dell’IA

Un tribunale di Hangzhou stabilisce che l’automazione non è una causa legale di licenziamento. E le imprese devono fare i conti con una giurisprudenza in...
Fairwater IA data center Microsoft compute tax
, • ⏱ 4 min

La “compute tax”: ecco perché si torna a parlare di tassare l’IA

Tra redistribuzione e fuga di capitali, il dibattito sulla tassazione dell’IA scalda la campagna elettorale americana.

SpaceX Anthropic
• ⏱ 3 min

Anthropic affitterà i server di Musk

Colossus 1, il data center da centinaia di migliaia di chip Nvidia, cambia inquilino. E la corsa alla potenza di calcolo di Anthropic aggiunge un tassello...
Shivon Zilis Elon Musk
, • ⏱ 5 min

Secondo Shivon Zilis, Musk voleva fondere OpenAI in Tesla

Le testimonianze della compagna di Musk, Shivon Zilis, insieme a quelle di Brockman e Murati, ricostruiscono i sei mesi del 2017-2018 in cui il fondatore di Tesla tentò...
Share This