Dopo mesi di attesa, OpenAI ha finalmente introdotto la capacità di analizzare video in tempo reale all’interno di ChatGPT.
L’annuncio è stato fatto ieri, durante una diretta streaming in cui l’azienda ha mostrato come la funzione permetta agli utenti di puntare il proprio smartphone verso oggetti fisici e ricevere risposte quasi istantanee.
Inutile dirlo, si tratta di un’evoluzione importante rispetto alla modalità vocale già presente.
Come funziona la nuova modalità
La nuova funzionalità, disponibile per gli abbonati ai piani Plus, Team e Pro, combina una capacità conversazionale avanzata con la visione artificiale.
Tramite l’app di ChatGPT, gli utenti possono attivare il riconoscimento visivo premendo sull’icona del video accanto alla barra di chat.
Oltre a interpretare oggetti fisici, la funzione consente di comprendere e spiegare il contenuto dello schermo del dispositivo, grazie alla condivisione dello schermo.
Questo permette, ad esempio, di ricevere suggerimenti su problemi matematici o spiegazioni relative a menu di impostazioni tecniche.
La distribuzione e i limiti
OpenAI ha dichiarato che il rollout globale della modalità vocale avanzata con visione sarà completato entro una settimana, ma non tutti gli utenti potranno accedervi immediatamente.
I clienti dei piani Enterprise ed Edu dovranno attendere fino a gennaio, mentre gli utenti in Unione Europea, Svizzera, Islanda, Norvegia e Liechtenstein rimangono esclusi senza una data definita per il rilascio.
La nuova modalità è stata testata pubblicamente durante un episodio del programma “60 Minutes” della CNN, dove il presidente di OpenAI, Greg Brockman, ha sfidato il giornalista Anderson Cooper con un quiz di anatomia.
ChatGPT ha dimostrato la capacità di riconoscere e commentare disegni realizzati in tempo reale, ma ha anche commesso errori in un problema di geometria, confermando una tendenza a generare risposte imprecise, note come “allucinazioni.”
La corsa dei rivali
OpenAI aveva annunciato la funzione ad aprile, promettendo una distribuzione “in poche settimane,” ma solo ora la versione completa è disponibile per alcuni utenti. I ritardi nel lancio sono stati attribuiti alla complessità tecnica.
Nel frattempo, i rivali del settore non sono rimaste a guardare. Google ha recentemente testato una funzione simile, Project Astra, su dispositivi Android, riservandola a un ristretto gruppo di tester. Meta, dal canto suo, sta sviluppando soluzioni conversazionali con capacità di analisi video.
Ah, dimenticavamo: accanto a questa innovazione tecnologica, OpenAI ha lanciato anche una modalità festiva denominata “Santa Mode,” che consente agli utenti di interagire con ChatGPT usando la voce di Babbo Natale.
Un’aggiunta leggera, ma perfettamente in tema con il periodo natalizio.


