OpenAI annuncia GPT-4o

da | 13 Mag 2024 | IA

Sam Altman lo aveva detto: “lunedì annunceremo qualcosa di magico”. E sebbene quanto appena mostrato da Mira Murati non lo sia stato esattamente, possiamo dire che c’è andato molto vicino.

Quella del Chief Technology Officer è stata infatti una presentazione breve (mezzoretta scarsa) e ricca di trovate ad effetto. Per la magia, però, preferiamo attendere l’avvento dell’AGI, quando mai verrà.

Anche così, però, non ci possiamo lamentare. OpenAI ha infatti lanciato un nuovo modello di intelligenza artificiale generativa chiamato GPT-4o, dove la “o” sta per “omni”. Questo modello è in grado di gestire testo, voce e video, e rappresenta un passo avanti per l’azienda nel mantenere la leadership nel settore delle tecnologie emergenti. Nelle prossime settimane sarà implementato “iterativamente” nei prodotti destinati agli sviluppatori e ai consumatori.

Mira Murati, CTO di OpenAI, ha dichiarato che GPT-4o offre un’intelligenza “al livello di GPT-4” ma che ne amplia le capacità su più modalità e media, inclusa una capacità di conversazione vocale davvero realistica e la possibilità d’interagire attraverso testo e immagini. “GPT-4o ragiona attraverso voce, testo e visione”, dichiara la Murati nel video che potete vedere qui sotto. “E questo è incredibilmente importante, perché stiamo guardando al futuro dell’interazione tra noi e le macchine”.

Le nuove capacità audio permettono agli utenti di parlare con ChatGPT e ottenere risposte in tempo reale e senza ritardi, oltre alla possibilità di interrompere ChatGPT mentre parla. Queste sono caratteristiche distintive delle conversazioni realistiche che gli assistenti vocali AI hanno finora trovato difficili. “Parlare con un computer non è mai sembrato così naturale; ora sì”, ha scritto Sam Altman, CEO di OpenAI, in un post sul blog, evidenziando il progresso notevole verso un’interazione più fluida e intuitiva.

Chiacchierando con GPT-4o

Sia chiaro, anche prima dell’introduzione di GPT-4o si poteva interagire vocalmente con ChatGPT tramite la modalità vocale. Che però registrava tempi di risposta medi di 2,8 secondi con GPT-3.5 e di ben 5,4 secondi con GPT-4. Questa modalità operava mediante una pipeline composta da tre modelli distinti: il primo convertiva l’audio in testo, il secondo (GPT-3.5 o GPT-4) elaborava il testo e ne generava di nuovo, mentre il terzo riconvertiva il testo in audio. Tale sistema comportava una perdita significativa di informazioni per GPT-4, impedendogli di percepire toni, voci multiple, rumori ambientali o di esprimere emozioni come risate o canto.

Con il nuovo GPT-4o, invece, OpenAI ha sviluppato un modello unico capace di gestire end-to-end testo, immagini e audio, il che permette a tutti gli input e output di essere processati dalla stessa rete neurale. Essendo il primo modello che integra queste modalità, ci vorrà del tempo prima di scoprirne le potenzialità e i limiti. GPT-4o ora risponde agli input audio in appena 232 millisecondi, con una media di 320 millisecondi, tempi di reazione simili a quelli umani durante una conversazione.

Il nuovo modello di OpenAI è paragonabile a GPT-4 Turbo per le prestazioni su testo in inglese e codice, ma mostra miglioramenti notevoli per i testi in altre lingue, oltre a essere molto più rapido. Inoltre, GPT-4o ha dimostrato di essere nettamente superiore nella comprensione di immagini e audio rispetto ai modelli precedenti.

Durante l’evento, i ricercatori di OpenAI hanno dimostrato le capacità del nuovo assistente vocale di ChatGPT. In una dimostrazione, ChatGPT ha utilizzato le sue capacità di visione e voce per guidare un ricercatore nella risoluzione di un’equazione matematica disegnata su un foglio di carta. In un’altra demo, è stata mostrata la capacità del modello GPT-4o di traduzione linguistica in tempo reale.

Le dimostrazioni di OpenAI hanno quindi toccato il confine con la fantascienza, con ChatGPT e il suo interlocutore che a un certo punto si sono messi a flirtare. “Oh smettila! Mi stai facendo arrossire!”, ha risposto a un certo punto il chatbot.

GPT-4o supporterà 50 lingue e sarà offerto gratuitamente, perché più conveniente rispetto ai modelli precedenti della compagnia. Gli utenti a pagamento di GPT-4o avranno limiti di capacità cinque volte maggiori rispetto agli utenti gratuiti, superati i quali ChatGPT passerà automaticamente a GPT-3.5, così da poter continuare le conversazioni.

OpenAI ha anche annunciato il rilascio di una rinnovata interfaccia utente ChatGPT sul web con una nuova schermata home “più conversazionale” e un layout dei messaggi, e di una app macOS per la versione desktop, che permette agli utenti di parlare direttamente al computer e di prendere screenshot, da “mostrare” poi all’IA. Gli utenti di ChatGPT Plus avranno accesso all’app per primi, e una versione per Windows arriverà più tardi quest’anno.

OpenAI ha progettato GPT-4o con la sicurezza come priorità, utilizzando tecniche di filtraggio dei dati e affinamento del modello. Le valutazioni, che hanno coinvolto oltre 70 esperti esterni, mostrano che GPT-4o non supera il livello di rischio Medio in aree come in ambiti come cybersicurezza, CBRN (chimico, biologico, radiologico e nucleare), persuasione e autonomia del modello. Al lancio gli output audio saranno limitati a voci preimpostate, immaginiamo per ridurre i rischi di deepfake.

Dopo la demo, Sam Altman ha postato su X un semplice messaggio: “lei”. Il riferimento sembra essere al film del 2013 di Spike Jones, che racconta di un uomo che s’innamora della sua assistente gestita dall’IA.

Un film che noi stessi abbiamo più volte citato qui su TechTalking come perfetto esempio del particolare periodo storico che stiamo vivendo. Nel quale la fantascienza diventa ogni giorno più reale.

POTREBBE INTERESSARTI

ByteDance e Broadcom avviano una collaborazione strategica per l'IA
,

ByteDance e Broadcom: al via una collaborazione per l’IA

L’azienda americana produrrà un chip da 5nm per la casa madre di TikTok, che lo scorso anno avrebbe già investito 2 miliardi di dollari in chip Nvidia.

Apple rinvierà il lancio di Apple Intelligence nell'UE
,

Apple rinvierà il lancio di Apple Intelligence nell’UE

Il gigante tecnologico indica il Digital Markets Act come la causa di questa decisione.

TikTok prova a rivoluzionare l'ADV ma inciampa clamorosamente

TikTok prova a rivoluzionare l’ADV ma inciampa clamorosamente

I Symphony Digital Avatars, il nuovo strumento di TikTok per la creazione di contenuti generati dall’IA, finiscono nel mirino dopo che una falla ha consentito la...
Ecco come di comporta Claude 3.5 Sonnet rispetto agli altri modelli.

Più veloce e intelligente: ecco Claude 3.5 Sonnet

Claude 3.5 Sonnet è il modello più avanzato di Anthropic, e promette prestazioni superiori a GPT-4 e Gemini

Il produttore di chip TSMC vola in borsa

La valutazione di TSMC vola alle stelle trascinata di Nvidia

TSMC si sta avvicinando alla valutazione di mille miliardi di dollari a Wall Street trascinata da Nvdia e dall’esplosione dell’IA.

L'IA non è in grado di prendere ordini da McDonald's

McDonald’s: l’IA non è ancora in grado di prendere gli ordini al drive-in

McDonald’s, la famosa catena di fast food, negli Stati Uniti ha deciso di disabilitare un sistema basato sull’intelligenza artificiale utilizzato nei...
Jen-Hsun Huang durante una presentazione di Nvidia

Nvidia batte Microsoft ed è la società che vale di più al mondo

Spinta dal crescente interesse nel comparto dell’intelligenza artificiale, Nvidia ha infranto un nuovo record in borsa, superando anche Microsoft.

Il segretario della NATO Jens Stoltenberg

La NATO investe mille miliardi di euro in IA, robot e spazio

La NATO investe mille miliardi di euro in 4 aziende specializzate in tecnologia per lo sviluppo di IA, robotica e ingegneria spaziale.

I robots di Ex-Robots

In Cina stanno costruendo robot con espressioni facciali umane

L’ultima frontiera della tecnologia fonde la robotica con l’intelligenza artificiale. L’obiettivo è quello di usare l’IA per dare ai robot...
Sam Altman potrebbe trasformare OpenAI in una società benefit foto: Joel Saget/AFP/Getty Images

OpenAI potrebbe diventare una società benefit (e perseguire il profitto)

OpenAI, per competete al meglio contro Anthropic e xAI, potrebbe cessare di essere una no-profit. E c’è già chi come passo successivo s’immagina...
Share This