Troppo intelligenti per controllarle: OpenAI cambia strategia sulle IA

da | 16 Apr 2025 | IA

Illustrazione: OpenAI

Ottobre 2027. L’umanità si trova a un bivio. Da un lato, rallentare lo sviluppo dell’intelligenza artificiale per contenerne i potenziali rischi. Dall’altro, accelerare per non perdere terreno rispetto alla Cina.

È questo il cuore di uno studio appena pubblicato, dal titolo AI 2027, che sotto forma di racconto distopico – ma nemmeno troppo – immagina un futuro in cui una singola intelligenza artificiale diventa più capace del più brillante tra gli esseri umani.

A firmare il documento, ripreso anche dal Corriere della Sera, troviamo Daniel Kokotajlo, ex ricercatore di OpenAI che nel 2024 aveva lasciato l’azienda perché convinto che non stesse più agendo in modo responsabile.

Forse allora non è un caso che, proprio mentre quel tipo di scenario torna a far discutere, OpenAI annunci il primo aggiornamento al proprio framework di sicurezza da quando, nel dicembre 2023, ha deciso di dotarsi di uno strumento ufficiale per valutare i rischi delle sue IA.

Un cambio di paradigma per OpenAI

La nuova versione del preparedness framework, così si chiama il sistema adottato da OpenAI per determinare se un modello è sicuro, introduce alcune modifiche sostanziali.

La più evidente è che scompare la distinzione tra rischio “basso” e “medio”. D’ora in poi conterà solo una cosa: se un sistema presenta rischi “alti” o “critici”.

La la vera svolta è però l’aggiunta di nuove categorie pensate per tenere conto dei comportamenti più imprevedibili e sfuggenti.

Come ad esempio la capacità di un modello di replicarsi da solo, di eludere le misure di sicurezza, di nascondere le proprie vere potenzialità o addirittura di opporsi a uno spegnimento forzato.

L’IA come agente autonomo

Il rischio, insomma, non è più solo quello di un uso malevolo da parte dell’uomo, per esempio nella creazione di armi biologiche, ma anche quello che un sistema sempre più “agentico”, come si dice in gergo, cominci a prendere decisioni autonome e imprevedibili.

«Siamo sull’orlo di sistemi capaci di fare nuova scienza», ha dichiarato OpenAI nel documento di aggiornamento. «E che potranno presto generare rischi concreti e gravi. Per questo servono misure di salvaguardia affidabili e solide».

L’idea di fondo, confermata dalla ricercatrice Sandhini Agarwal in un’intervista a Axios, è che tutto il lavoro sull’affidabilità debba ora concentrarsi sui rischi “catastrofici”.

Modelli sempre più abili nel mascherarsi

Uno dei motivi di allarme è che i modelli di ultima generazione stanno dimostrando di essere molto più abili nel mascherare le proprie capacità.

Una recente ricerca di Anthropic, ad esempio, ha suggerito che alcuni modelli linguistici sono in grado di pianificare azioni complesse in modo non visibile e di simulare processi di ragionamento fuorvianti.

Detto altrimenti: un modello potrebbe comportarsi in un modo nei test di laboratorio e in un altro – molto meno sicuro – nel mondo reale.

Ed è proprio questo il tipo di rischio che, con il nuovo framework, OpenAI dice di voler affrontare in maniera prioritaria.

POTREBBE INTERESSARTI

ChatGPT OpenAI IA

USA: i procuratori generali contro i “deliri” delle IA

Dopo nuovi casi legati alla salute mentale, gli Stati pretendono. inevitabile lo scontro con Washington, che invece vuole limitare le restrizioni per l’IA.

Bob Iger Disney

Disney: 1 miliardo in OpenAI e via libera ai personaggi su Sora

Un’intesa triennale permette l’uso di oltre 200 personaggi Disney, Marvel, Pixar e Star Wars su Sora, segnando una svolta nel rapporto tra Hollywood e l’IA...
Michael Intrator CoreWeave

CoreWeave, il CEO difende gli accordi circolari dell’IA

Michael Intrator risponde alle accuse di instabilità e rivendica il modello di collaborazione tra CoreWeave e i big dell’IA.

adolescenti

Gli adolescenti americani e la nuova dipendenza dai chatbot IA

Dati, divari sociali e rischi emotivi nella fotografia del Pew Research Center sull’utilizzo dell’IA tra gli adolescenti USA.

Donald Trump Nvidia

Trump apre all’H200 verso la Cina (ma chiede a Nvidia un ‘pizzo’ del 25%

Il presidente degli Stati Uniti autorizza l’export del chip di fascia alta di Nvidia in cambio di una quota senza precedenti: un compromesso tra geopolitica, mercato e...
Cina qwen deepseek

La Cina accelera sull’open source: ora vale il 30% dell’utilizzo dell’IA

Un report di OpenRouter mostra l’ascesa dei modelli cinesi nonostante le restrizioni USA su Nvidia e AMD.

Arvind Krishna IBM

Il CEO di IBM avverte: “la corsa ai data center non potrà ripagarsi”

Secondo Arvind Krishna i costi attuali dell’infrastruttura rendono impossibile rientrare dai trilioni investiti nella potenza di calcolo.

silicon valley agenti ia

La Silicon Valley clona Amazon e Gmail per addestrare gli agenti IA

Start-up finanziate dai big del venture capital ricostruiscono i siti più usati al mondo per insegnare agli agenti digitali a navigare, prenotare, compilare e...
Zuckerberg Meta glasses

Meta valuta tagli fino al 30% al budget del Metaverso per il 2026

Meta starebbe considerando di ridurre del 30% il budget assegnato ai suoi sforzi per il metaverso nel 2026, così da allocare più risorse all’IA.

Cristiano Ronaldo e il CEO di Perplexity

Cristiano Ronaldo investe in Perplexity AI

Cristiano Ronaldo ha deciso di investire in Perplexity AI e di entrare a gamba tesa nel business dell’intelligenza artificiale.

Share This