Negli ultimi anni l’intelligenza artificiale ha compiuto notevoli progressi nel campo della generazione di contenuti. E se fino a poco fa ci stupivamo delle incredibili immagini generate da Midjourney, negli ultimi tempi il focus ha iniziato a spostarsi sempre più verso la creazione di video.
Aziende come Runway e Pika hanno già mostrato modelli simili, mentre Google ha già dimostrato di voler presidiare il settore con Lumiere. Ciò di cui andiamo a parlare oggi, però, ci ha davvero sbalordito e viene da OpenAI, l’azienda che ha già cambiato il mondo con ChatGPT. E che si appresta a farlo nuovamente col suo nuovo modello di intelligenza artificiale text-to-video di nome Sora.
Un po’ come accade con Midjourney e DALL-E 3, con Sora, gli utenti hanno la possibilità di trasformare istruzioni testuali in video fotorealistici, con una durata massima al momento limitata di un minuto. Come potrete vedere dal video qui sotto, la capacità generativa non si limita solo a creare sequenze semplici ma permette la realizzazione di scenari complessi, arricchiti da personaggi multipli e movimenti specifici. Soprattutto, permette l’inserimento di dettagli minuziosi, sia per quanto riguarda i soggetti che gli sfondi, che sono poi quelli che conferiscono ancora più realismo al risultato finale.
Il post di presentazione sul blog di OpenAI evidenzia le competenze avanzate di Sora, come la capacità di comprendere l’esistenza fisica degli oggetti e di creare personaggi che esprimono emozioni autentiche e convincenti. Inoltre, il modello può generare video partendo da una singola immagine e può integrare o estendere sequenze video esistenti.
Sia chiaro, nonostante i risultati impressionanti, Sora presenta ancora alcune limitazioni. Ad esempio, apprendiamo che il modello potrebbe incontrare difficoltà nella simulazione accurata della fisica in scene complesse o nell’interpretazione corretta di alcuni aspetti di causa ed effetto. Ma stiamo parlando di un prodotto tuttora in fase sperimentale e chissà cosa potrà fare in futuro…
Attualmente, l’accesso a Sora è limitato a un gruppo selezionato di valutatori, denominati “red teamers”, incaricati di individuare potenziali rischi e danni associati all’utilizzo del modello. OpenAI sta inoltre collaborando con artisti visivi, designer e cineasti per raccogliere feedback e migliorare ulteriormente il modello.
Ma è inutile nascondersi: uno strumento come questo può avere ripercussioni imprevedibili sulla società. Sebbene sia OpenAI, col suo strumento di generazione di immagini DALL-E 3, sia Midjourney, stiano tutti introducendo dei watermark all’interno delle proprie creazioni per permettere di distinguere il vero dal falso, è altrettanto vero che queste “filigrane” sono facilmente rimuovibili.
Una volta si usava dire “l’ho visto in televisione” per confermare la bontà di ciò che ci si apprestava a raccontare, ora con strumenti così potenti non sapremo davvero più a cosa credere. E col consenso politico che ormai si forma sui social, le finte telefonate di Biden con cui sono stati ingannati gli elettori del Delaware sembreranno una marachella da ragazzini.
Sora, e tutti i prodotti analoghi, da un lato affascinano per le loro potenzialità, dall’altro inquietano per le loro possibili ripercussioni. Ci fideremo ancora dei notiziari? Come accoglieremo i video che vedremo su TikTok provenienti da zone di guerra? Quel politico avrà veramente detto quelle cose incredibili che un amico ci ha appena girato su Whatsapp? Mai come in questo caso non possiamo che prendere i pop-corn e assistere, da spettatori, a ciò che sarà del mondo nel futuro prossimo.


