Sam Altman lo aveva detto: “lunedì annunceremo qualcosa di magico”. E sebbene quanto appena mostrato da Mira Murati non lo sia stato esattamente, possiamo dire che c’è andato molto vicino.
Quella del Chief Technology Officer è stata infatti una presentazione breve (mezzoretta scarsa) e ricca di trovate ad effetto. Per la magia, però, preferiamo attendere l’avvento dell’AGI, quando mai verrà.
Anche così, però, non ci possiamo lamentare. OpenAI ha infatti lanciato un nuovo modello di intelligenza artificiale generativa chiamato GPT-4o, dove la “o” sta per “omni”. Questo modello è in grado di gestire testo, voce e video, e rappresenta un passo avanti per l’azienda nel mantenere la leadership nel settore delle tecnologie emergenti. Nelle prossime settimane sarà implementato “iterativamente” nei prodotti destinati agli sviluppatori e ai consumatori.
Mira Murati, CTO di OpenAI, ha dichiarato che GPT-4o offre un’intelligenza “al livello di GPT-4” ma che ne amplia le capacità su più modalità e media, inclusa una capacità di conversazione vocale davvero realistica e la possibilità d’interagire attraverso testo e immagini. “GPT-4o ragiona attraverso voce, testo e visione”, dichiara la Murati nel video che potete vedere qui sotto. “E questo è incredibilmente importante, perché stiamo guardando al futuro dell’interazione tra noi e le macchine”.
Le nuove capacità audio permettono agli utenti di parlare con ChatGPT e ottenere risposte in tempo reale e senza ritardi, oltre alla possibilità di interrompere ChatGPT mentre parla. Queste sono caratteristiche distintive delle conversazioni realistiche che gli assistenti vocali AI hanno finora trovato difficili. “Parlare con un computer non è mai sembrato così naturale; ora sì”, ha scritto Sam Altman, CEO di OpenAI, in un post sul blog, evidenziando il progresso notevole verso un’interazione più fluida e intuitiva.
Chiacchierando con GPT-4o
Sia chiaro, anche prima dell’introduzione di GPT-4o si poteva interagire vocalmente con ChatGPT tramite la modalità vocale. Che però registrava tempi di risposta medi di 2,8 secondi con GPT-3.5 e di ben 5,4 secondi con GPT-4. Questa modalità operava mediante una pipeline composta da tre modelli distinti: il primo convertiva l’audio in testo, il secondo (GPT-3.5 o GPT-4) elaborava il testo e ne generava di nuovo, mentre il terzo riconvertiva il testo in audio. Tale sistema comportava una perdita significativa di informazioni per GPT-4, impedendogli di percepire toni, voci multiple, rumori ambientali o di esprimere emozioni come risate o canto.
Con il nuovo GPT-4o, invece, OpenAI ha sviluppato un modello unico capace di gestire end-to-end testo, immagini e audio, il che permette a tutti gli input e output di essere processati dalla stessa rete neurale. Essendo il primo modello che integra queste modalità, ci vorrà del tempo prima di scoprirne le potenzialità e i limiti. GPT-4o ora risponde agli input audio in appena 232 millisecondi, con una media di 320 millisecondi, tempi di reazione simili a quelli umani durante una conversazione.
Il nuovo modello di OpenAI è paragonabile a GPT-4 Turbo per le prestazioni su testo in inglese e codice, ma mostra miglioramenti notevoli per i testi in altre lingue, oltre a essere molto più rapido. Inoltre, GPT-4o ha dimostrato di essere nettamente superiore nella comprensione di immagini e audio rispetto ai modelli precedenti.
Durante l’evento, i ricercatori di OpenAI hanno dimostrato le capacità del nuovo assistente vocale di ChatGPT. In una dimostrazione, ChatGPT ha utilizzato le sue capacità di visione e voce per guidare un ricercatore nella risoluzione di un’equazione matematica disegnata su un foglio di carta. In un’altra demo, è stata mostrata la capacità del modello GPT-4o di traduzione linguistica in tempo reale.
Le dimostrazioni di OpenAI hanno quindi toccato il confine con la fantascienza, con ChatGPT e il suo interlocutore che a un certo punto si sono messi a flirtare. “Oh smettila! Mi stai facendo arrossire!”, ha risposto a un certo punto il chatbot.
her
— Sam Altman (@sama) May 13, 2024
GPT-4o supporterà 50 lingue e sarà offerto gratuitamente, perché più conveniente rispetto ai modelli precedenti della compagnia. Gli utenti a pagamento di GPT-4o avranno limiti di capacità cinque volte maggiori rispetto agli utenti gratuiti, superati i quali ChatGPT passerà automaticamente a GPT-3.5, così da poter continuare le conversazioni.
OpenAI ha anche annunciato il rilascio di una rinnovata interfaccia utente ChatGPT sul web con una nuova schermata home “più conversazionale” e un layout dei messaggi, e di una app macOS per la versione desktop, che permette agli utenti di parlare direttamente al computer e di prendere screenshot, da “mostrare” poi all’IA. Gli utenti di ChatGPT Plus avranno accesso all’app per primi, e una versione per Windows arriverà più tardi quest’anno.
OpenAI ha progettato GPT-4o con la sicurezza come priorità, utilizzando tecniche di filtraggio dei dati e affinamento del modello. Le valutazioni, che hanno coinvolto oltre 70 esperti esterni, mostrano che GPT-4o non supera il livello di rischio Medio in aree come in ambiti come cybersicurezza, CBRN (chimico, biologico, radiologico e nucleare), persuasione e autonomia del modello. Al lancio gli output audio saranno limitati a voci preimpostate, immaginiamo per ridurre i rischi di deepfake.
Dopo la demo, Sam Altman ha postato su X un semplice messaggio: “lei”. Il riferimento sembra essere al film del 2013 di Spike Jones, che racconta di un uomo che s’innamora della sua assistente gestita dall’IA.
Un film che noi stessi abbiamo più volte citato qui su TechTalking come perfetto esempio del particolare periodo storico che stiamo vivendo. Nel quale la fantascienza diventa ogni giorno più reale.


