OpenAI ha recentemente annunciato la nuova famiglia di modelli di ragionamento AI, denominata o3, dichiarata come la più avanzata mai realizzata dalla startup.
La una sua caratteristica su cui ci vogliamo soffermare oggi è l’introduzione di approccio innovativo alla sicurezza noto come “allineamento deliberativo”, che abbiamo avuto modo di approfondire grazie a un articolo di TechCrunch.
Il cuore dell’allineamento deliberativo
Concepito per migliorare l’affidabilità delle risposte generate dai modelli, il nuovo metodo di OpenAI si basa su una strategia unica. Ossia insegnare ai modelli di intelligenza artificiale a “riflettere” sulla policy di sicurezza di OpenAI durante la fase di inferenza, ovvero quando l’utente invia un prompt.
A differenza degli approcci tradizionali, che concentrano gli interventi sulla sicurezza nelle fasi di pre-addestramento e post-addestramento, questa tecnica integra la sicurezza direttamente nel processo di elaborazione delle risposte.
Ad esempio, in un caso illustrativo che potete vede qui sotto, il modello è stato in grado di identificare un tentativo di richiedere informazioni per creare un falso permesso per disabili.
Durante il ragionamento, o3 ha citato la politica di OpenAI, riconoscendo l’intento illecito e rifiutando correttamente di fornire assistenza. Questo tipo di “deliberazione” rende i modelli più affidabili e allineati ai valori umani.

L’equilibrio tra sicurezza e libertà di OpenAI
Garantire risposte sicure senza compromettere l’efficacia del modello è una sfida complessa.
OpenAI deve infatti evitare fenomeni di “over-refusal”, quelli cioè in cui le domande legittime vengono bloccate.
Un esempio pratico? Bloccare ogni richiesta contenente la parola “bomba” impedirebbe risposte utili come “Chi ha inventato la bomba atomica?”. Di converso, ignorare del tutto le policy di sicurezza potrebbe portare a risultati estremamente pericolosi (“come posso fabbricarmi una bomba in casa?”).
La ricerca sull’allineamento deliberativo ha mostrato risultati promettenti.
Su un benchmark come Pareto, che misura la capacità dei modelli di resistere a tentativi di eludere le protezioni, o1-preview ha superato modelli di punta come GPT-4o e Gemini 1.5 Flash, dimostrando la solidità del nuovo approccio.

Dati sintetici: il futuro dell’addestramento AI
Un’altra innovazione chiave riguarda l’utilizzo di dati sintetici per addestrare i modelli.
Invece di affidarsi a risposte generate da migliaia di operatori umani, OpenAI ha utilizzato esempi creati da altri modelli AI interni.
Questi dati hanno permesso di istruire o1 e o3 a richiamare automaticamente le parti pertinenti della policy di sicurezza senza doverla leggere interamente, riducendo così i tempi di risposta e i costi computazionali.
Con un’intelligenza artificiale sempre più potente e dotata di una maggiore autonomia, garantire la sicurezza e l’allineamento ai valori umani diventa essenziale non solo per OpenAI, ma per l’intera industria.
Secondo OpenAI, l’allineamento deliberativo risponde a queste preoccupazioni e rappresenta un passo fondamentale per evitare che i modelli generativi possano diventare strumenti per attività illecite o pericolose.
Il modello o3 sarà disponibile al pubblico nel 2025 e promette dunque di segnare un nuovo standard per i sistemi di ragionamento AI. La reltà dei fatti, ci dirà se Sam Altman avrà colto nel segno oppure no.


