Alla scoperta dell’allineamento deliberativo di OpenAI

da | 23 Dic 2024 | IA

Tempo di lettura: 2 minuti

OpenAI ha recentemente annunciato la nuova famiglia di modelli di ragionamento AI, denominata o3, dichiarata come la più avanzata mai realizzata dalla startup.

La una sua caratteristica su cui ci vogliamo soffermare oggi è l’introduzione di approccio innovativo alla sicurezza noto come “allineamento deliberativo”, che abbiamo avuto modo di approfondire grazie a un articolo di TechCrunch.

Il cuore dell’allineamento deliberativo

Concepito per migliorare l’affidabilità delle risposte generate dai modelli, il nuovo metodo di OpenAI si basa su una strategia unica. Ossia insegnare ai modelli di intelligenza artificiale a “riflettere” sulla policy di sicurezza di OpenAI durante la fase di inferenza, ovvero quando l’utente invia un prompt.

A differenza degli approcci tradizionali, che concentrano gli interventi sulla sicurezza nelle fasi di pre-addestramento e post-addestramento, questa tecnica integra la sicurezza direttamente nel processo di elaborazione delle risposte.

Ad esempio, in un caso illustrativo che potete vede qui sotto, il modello è stato in grado di identificare un tentativo di richiedere informazioni per creare un falso permesso per disabili.

Durante il ragionamento, o3 ha citato la politica di OpenAI, riconoscendo l’intento illecito e rifiutando correttamente di fornire assistenza. Questo tipo di “deliberazione” rende i modelli più affidabili e allineati ai valori umani.

L’equilibrio tra sicurezza e libertà di OpenAI

Garantire risposte sicure senza compromettere l’efficacia del modello è una sfida complessa.

OpenAI deve infatti evitare fenomeni di “over-refusal”, quelli cioè in cui le domande legittime vengono bloccate.

Un esempio pratico? Bloccare ogni richiesta contenente la parola “bomba” impedirebbe risposte utili come “Chi ha inventato la bomba atomica?”. Di converso, ignorare del tutto le policy di sicurezza potrebbe portare a risultati estremamente pericolosi (“come posso fabbricarmi una bomba in casa?”).

La ricerca sull’allineamento deliberativo ha mostrato risultati promettenti.

Su un benchmark come Pareto, che misura la capacità dei modelli di resistere a tentativi di eludere le protezioni, o1-preview ha superato modelli di punta come GPT-4o e Gemini 1.5 Flash, dimostrando la solidità del nuovo approccio.

Dati sintetici: il futuro dell’addestramento AI

Un’altra innovazione chiave riguarda l’utilizzo di dati sintetici per addestrare i modelli.

Invece di affidarsi a risposte generate da migliaia di operatori umani, OpenAI ha utilizzato esempi creati da altri modelli AI interni.

Questi dati hanno permesso di istruire o1 e o3 a richiamare automaticamente le parti pertinenti della policy di sicurezza senza doverla leggere interamente, riducendo così i tempi di risposta e i costi computazionali.

Con un’intelligenza artificiale sempre più potente e dotata di una maggiore autonomia, garantire la sicurezza e l’allineamento ai valori umani diventa essenziale non solo per OpenAI, ma per l’intera industria.

Secondo OpenAI, l’allineamento deliberativo risponde a queste preoccupazioni e rappresenta un passo fondamentale per evitare che i modelli generativi possano diventare strumenti per attività illecite o pericolose.

Il modello o3 sarà disponibile al pubblico nel 2025 e promette dunque di segnare un nuovo standard per i sistemi di ragionamento AI. La reltà dei fatti, ci dirà se Sam Altman avrà colto nel segno oppure no.

POTREBBE INTERESSARTI

Caitlin Kalinowski OpenAI
, • ⏱ 2 min

La responsabile della robotica di OpenAI si dimette per il contratto col Pentagono

Caitlin Kalinowski si dimette citando i rischi di sorveglianza e autonomia letale. L’azienda difende l’intesa ma le contraddizioni restano.

masayoshi son sam altman
, • ⏱ 2 min

SoftBank chiede 40 miliardi in prestito per OpenAI. E il mercato inizia a preoccuparsi

Venduta la quota in Nvidia, comprata altra OpenAI: il fondatore Masayoshi Son trasforma SoftBank in una scommessa sull’IA generativa. Con tutti i rischi del...
Dario Amodei Anthropic
, , • ⏱ 3 min

Amodei si scusa per il memo. E porta il Pentagono in tribunale

Amodei aveva accusato Trump di volere “lodi in stile dittatore” e OpenAI di fare “teatro della sicurezza”. Ora le scuse, ma la battaglia legale...
Dario Amodei Anthropic
, • ⏱ 3 min

Il memo di Amodei rischia di far saltare la pace con il Pentagono

Le trattative tra Anthropic e il Dipartimento della Difesa erano appena ripartite quando è trapelato il testo interno del CEO (con accuse dirette...
Maher Saba Meta 2
• ⏱ 2 min

Meta crea una nuova organizzazione di ingegneria applicata per l’IA

Una nuova organizzazione affiancherà i Superintelligence Labs per produrre feedback, valutazioni e dati reali per rendere i modelli di IA sempre più...
Sam Altman ChatGPT OpenAI NATO
• ⏱ 3 min

Sam Altman ora mira alla NATO

Dopo aver conquistato il Pentagono, secondo il Wall Street Journal ora OpenAI sta guardando alla NATO. Ma i dati degli europei dove finirebbero?

Sam Altman OpenAI
, • ⏱ 4 min

OpenAI e Pentagono, Sam Altman ci ripensa

Il CEO di OpenAI aggiunge nuove clausole sulla sorveglianza domestica dopo la firma. Le proteste interne e le pressioni esterne sembrano aver avuto effetto.

iran ia cover
, • ⏱ 3 min

Guerra, IA e chip: con l’Iran, niente è più come prima

L’uso militare dell’IA da parte degli Stati Uniti spinge la Cina verso chip e modelli nazionali. Ma la strada dell’open source porta con sé rischi che...
merz germania
, • ⏱ 3 min

Merz in visita la Cina, accolto da una parata di robot umanoidi

Merz, il 13 febbraio a Monaco: “La Cina reinterpreta l’ordine internazionale a proprio vantaggio”. Ma il 27 febbraio era ad Hangzhou, tra parate di...
Sam Altman OpenAI
, • ⏱ 6 min

Il damage control di Sam Altman

Il CEO di OpenAI difende Anthropic su X mentre ne occupa lo spazio al Dipartimento della Guerra. L’AMA da cinque milioni di visualizzazioni è il capolavoro di una...
Share This