OpenAI annuncia GPT-4o

da | 13 Mag 2024 | IA

Sam Altman lo aveva detto: “lunedì annunceremo qualcosa di magico”. E sebbene quanto appena mostrato da Mira Murati non lo sia stato esattamente, possiamo dire che c’è andato molto vicino.

Quella del Chief Technology Officer è stata infatti una presentazione breve (mezzoretta scarsa) e ricca di trovate ad effetto. Per la magia, però, preferiamo attendere l’avvento dell’AGI, quando mai verrà.

Anche così, però, non ci possiamo lamentare. OpenAI ha infatti lanciato un nuovo modello di intelligenza artificiale generativa chiamato GPT-4o, dove la “o” sta per “omni”. Questo modello è in grado di gestire testo, voce e video, e rappresenta un passo avanti per l’azienda nel mantenere la leadership nel settore delle tecnologie emergenti. Nelle prossime settimane sarà implementato “iterativamente” nei prodotti destinati agli sviluppatori e ai consumatori.

Mira Murati, CTO di OpenAI, ha dichiarato che GPT-4o offre un’intelligenza “al livello di GPT-4” ma che ne amplia le capacità su più modalità e media, inclusa una capacità di conversazione vocale davvero realistica e la possibilità d’interagire attraverso testo e immagini. “GPT-4o ragiona attraverso voce, testo e visione”, dichiara la Murati nel video che potete vedere qui sotto. “E questo è incredibilmente importante, perché stiamo guardando al futuro dell’interazione tra noi e le macchine”.

Le nuove capacità audio permettono agli utenti di parlare con ChatGPT e ottenere risposte in tempo reale e senza ritardi, oltre alla possibilità di interrompere ChatGPT mentre parla. Queste sono caratteristiche distintive delle conversazioni realistiche che gli assistenti vocali AI hanno finora trovato difficili. “Parlare con un computer non è mai sembrato così naturale; ora sì”, ha scritto Sam Altman, CEO di OpenAI, in un post sul blog, evidenziando il progresso notevole verso un’interazione più fluida e intuitiva.

Chiacchierando con GPT-4o

Sia chiaro, anche prima dell’introduzione di GPT-4o si poteva interagire vocalmente con ChatGPT tramite la modalità vocale. Che però registrava tempi di risposta medi di 2,8 secondi con GPT-3.5 e di ben 5,4 secondi con GPT-4. Questa modalità operava mediante una pipeline composta da tre modelli distinti: il primo convertiva l’audio in testo, il secondo (GPT-3.5 o GPT-4) elaborava il testo e ne generava di nuovo, mentre il terzo riconvertiva il testo in audio. Tale sistema comportava una perdita significativa di informazioni per GPT-4, impedendogli di percepire toni, voci multiple, rumori ambientali o di esprimere emozioni come risate o canto.

Con il nuovo GPT-4o, invece, OpenAI ha sviluppato un modello unico capace di gestire end-to-end testo, immagini e audio, il che permette a tutti gli input e output di essere processati dalla stessa rete neurale. Essendo il primo modello che integra queste modalità, ci vorrà del tempo prima di scoprirne le potenzialità e i limiti. GPT-4o ora risponde agli input audio in appena 232 millisecondi, con una media di 320 millisecondi, tempi di reazione simili a quelli umani durante una conversazione.

Il nuovo modello di OpenAI è paragonabile a GPT-4 Turbo per le prestazioni su testo in inglese e codice, ma mostra miglioramenti notevoli per i testi in altre lingue, oltre a essere molto più rapido. Inoltre, GPT-4o ha dimostrato di essere nettamente superiore nella comprensione di immagini e audio rispetto ai modelli precedenti.

Durante l’evento, i ricercatori di OpenAI hanno dimostrato le capacità del nuovo assistente vocale di ChatGPT. In una dimostrazione, ChatGPT ha utilizzato le sue capacità di visione e voce per guidare un ricercatore nella risoluzione di un’equazione matematica disegnata su un foglio di carta. In un’altra demo, è stata mostrata la capacità del modello GPT-4o di traduzione linguistica in tempo reale.

Le dimostrazioni di OpenAI hanno quindi toccato il confine con la fantascienza, con ChatGPT e il suo interlocutore che a un certo punto si sono messi a flirtare. “Oh smettila! Mi stai facendo arrossire!”, ha risposto a un certo punto il chatbot.

GPT-4o supporterà 50 lingue e sarà offerto gratuitamente, perché più conveniente rispetto ai modelli precedenti della compagnia. Gli utenti a pagamento di GPT-4o avranno limiti di capacità cinque volte maggiori rispetto agli utenti gratuiti, superati i quali ChatGPT passerà automaticamente a GPT-3.5, così da poter continuare le conversazioni.

OpenAI ha anche annunciato il rilascio di una rinnovata interfaccia utente ChatGPT sul web con una nuova schermata home “più conversazionale” e un layout dei messaggi, e di una app macOS per la versione desktop, che permette agli utenti di parlare direttamente al computer e di prendere screenshot, da “mostrare” poi all’IA. Gli utenti di ChatGPT Plus avranno accesso all’app per primi, e una versione per Windows arriverà più tardi quest’anno.

OpenAI ha progettato GPT-4o con la sicurezza come priorità, utilizzando tecniche di filtraggio dei dati e affinamento del modello. Le valutazioni, che hanno coinvolto oltre 70 esperti esterni, mostrano che GPT-4o non supera il livello di rischio Medio in aree come in ambiti come cybersicurezza, CBRN (chimico, biologico, radiologico e nucleare), persuasione e autonomia del modello. Al lancio gli output audio saranno limitati a voci preimpostate, immaginiamo per ridurre i rischi di deepfake.

Dopo la demo, Sam Altman ha postato su X un semplice messaggio: “lei”. Il riferimento sembra essere al film del 2013 di Spike Jones, che racconta di un uomo che s’innamora della sua assistente gestita dall’IA.

Un film che noi stessi abbiamo più volte citato qui su TechTalking come perfetto esempio del particolare periodo storico che stiamo vivendo. Nel quale la fantascienza diventa ogni giorno più reale.

POTREBBE INTERESSARTI

Grok Elon Musk

Grok, la California ordina lo stop: “Materiale pedopornografico, tolleranza zero”

Il procuratore generale Bonta invia una diffida a Musk mentre l’amministrazione Trump continua a integrare Grok nei flussi di lavoro federali.

Elon Musk OpenAI causa

Causa OpenAI: Musk chiede 134 miliardi di risarcimento

Sam Altman aveva avvisato di “prepararsi al peggio da Musk”, così è stato. La richiesta poggia sul concetto dei “profitti indebiti”.

Trump Chip

Trump firma il dazio del 25% sui chip H200, ma Nvidia ringrazia

La Casa Bianca impone dazi sui semiconduttori di fascia alta in transito verso la Cina. Ma per Nvidia è una vittoria: finalmente può vendere ai clienti cinesi...
Sam Altman OpenAI Elon Musk

Sam Altman avvisa gli investitori: “Preparatevi al peggio da Musk”

In vista del processo di aprile, OpenAI prepara partner e finanziatori: aspettatevi “sparate a effetto” e “dichiarazioni fuori da ogni...
Mira Murati Thinking Machines

Il saccheggio di Thinking Machines: OpenAI si riprende tre co-fondatori

In meno di un anno la startup di Mira Murati perde quattro figure chiave. A quanto pare i soldi non comprano la lealtà neppure nell’industria...
pubblicità IA

La pubblicità bussa alla porta dei chatbot: Google apre, gli altri seguiranno

Il colosso di Mountain View sperimenta annunci in AI Mode. OpenAI e Perplexity osservano, Meta si prepara. E chi non vorrà spot dovrà probabilmente pagare

Brad Smith, presidente di Microsoft

Microsoft promette: i nostri data center non peseranno sulle bollette degli americani

L’azienda si impegna a non chiedere sgravi fiscali e a formare i residenti. Brad Smith: “Non chiediamo ai contribuenti di sovvenzionarci”.

Matthew McConaughey

McConaughey registra sé stesso come marchio contro i deepfake

Otto trademark approvati negli USA trasformano l’immagine dell’attore in un asset legale. Nel vuoto normativo sui deepfake, Hollywood ricorre...
Google AI Overviews

Google rimuove le AI Overviews per alcune ricerche mediche

Un’indagine del Guardian documenta errori potenzialmente letali nei riassunti sanitari del motore di ricerca. Il tempismo col lancio di ChatGPT Health solleva...
Google agente

Google entra nello shopping con gli agenti IA per i retailer

Con Gemini Enterprise for Customer Experience, Big G offre strumenti per costruire assistenti virtuali proprietari. Ma il commercio agentico è davvero dietro...
Share This