Ricorderete tutti il suggestivo lancio di GPT-4o da parte di OpenAI lo scorso maggio. E avrete senz’altro notato che, delle mirabolanti caratteristiche vocali del recente modello di intelligenza artificiale di Sam Altman, successivamente non v’è stata traccia.
Almeno fino ad oggi.
OpenAI ha ufficialmente ritardato il lancio del nuovo ChatGPT vocale per migliorare (ufficialmente) le misure di sicurezza e affrontare problemi infrastrutturali. La release, inizialmente prevista per giugno, è stata posticipata di un mese per consentire all’azienda di affinare la capacità del modello di rilevare e rifiutare contenuti indesiderati e per preparare l’infrastruttura a supportare risposte in tempo reale per milioni di utenti.
Da oggi però il chatbot vocale di OpenAI sarà disponibile per un ristretto gruppo di utenti e verrà esteso a tutti gli abbonati di ChatGPT Plus in autunno. Questo nuovo strumento rappresenta un significativo passo avanti rispetto agli assistenti vocali attuali come Siri e Alexa, grazie alla capacità di comprendere toni di voce, rispondere a interruzioni e fornire risposte in tempo reale in modo più naturale e emotivamente espressivo.
La modalità vocale del nuovo chatbot è alimentata dal modello GPT-4o, che integra funzionalità vocali, testuali e visive. Dopo averla fatta testare in questi mesi a 100 “red-teamers” esterni, ora per proseguire le verifiche del caso l’azienda preferisce rivolgersi a un gruppo ristretto di utenti paganti. Con l’intenzione, ovviamente, di estendere entro l’autunno l’accesso a tutti gli abbonati ChatGPT Plus, che pagano 20 dollari al mese.
Gli utenti selezionati verranno notificati attraverso l’app ChatGPT con istruzioni su come utilizzare il nuovo modello.
We’re starting to roll out advanced Voice Mode to a small group of ChatGPT Plus users. Advanced Voice Mode offers more natural, real-time conversations, allows you to interrupt anytime, and senses and responds to your emotions. pic.twitter.com/64O94EhhXK
— OpenAI (@OpenAI) July 30, 2024
Le problematiche che hanno causato il ritardo non sono state solo tecniche. OpenAI ha dovuto affrontare controversie legali e questioni di copyright. La società ha implementato filtri per riconoscere e bloccare richieste di generazione di musica o altri contenuti audio protetti da copyright. Inoltre, per evitare l’uso del modello per creare deepfake audio, OpenAI ha collaborato con attori vocali per creare quattro voci preimpostate, escludendo la possibilità di imitare altre persone.
Un episodio significativo ha riguardato l’uso di una voce chiamata “Sky”, che ricordava troppo quella dell’attrice Scarlett Johansson. Dopo che l’attrice ha espresso la sua sorpresa nel sentire una voce “inquietantemente simile” alla sua, OpenAI ha negato qualsiasi collegamento diretto, ma ha comunque sospeso l’uso di Sky.
Nonostante i ritardi e le controversie, OpenAI è determinata a migliorare ulteriormente il suo chatbot vocale. Tra le funzionalità future previste ci sono la condivisione di video e schermi, che renderebbero l’assistente ancora più versatile. Nella demo di maggio era anche stato mostrato come il modello potesse risolvere equazioni matematiche e problemi di codifica attraverso l’uso della fotocamera del telefono e la condivisione dello schermo del computer.
Queste funzionalità, tuttavia, non saranno disponibili nell’immediato e verranno introdotte in una data non ancora definita.
Per le presentazioni future, ci auguriamo che OpenAI dimostrerà ciò che sarà effettivamente lo stato dell’arte dei suoi modelli di intelligenza artificiale in quel momento, non un desiderata che diverrà realtà chissà quando. Diversamente, il divario tra realtà e fiction nel suo caso si farà inevitabilmente ristretto.


