Meta ha lanciato Movie Gen, il suo nuovo modello generativo in grado di trasformare prompt testuali in video realistici con audio, segnando un ulteriore passo avanti nella competizione con giganti come OpenAI e Google.
L’obiettivo di Meta è chiaro: affermarsi come leader nel settore delle tecnologie AI generative, un’area in cui finora OpenAI (con Sora), Google (con Veo), e Runway hanno finora dominato.
Il lancio di Movie Gen arriva in un momento in cui la battaglia per il controllo dell’IA generativa sta intensificandosi. E Meta ha deciso di puntare su un’ampia integrazione tra video, audio e personalizzazione, con l’intento di fornire una soluzione completa che vada oltre la semplice produzione di contenuti statici.
Con Movie Gen, quindi, Meta non solo cerca di rafforzare il suo posizionamento tecnologico ma anche di migliorare il coinvolgimento degli utenti nelle sue piattaforme social, come Instagram e Facebook.
La possibilità di creare e modificare video, a partire da semplici comandi testuali, potrebbe infatti attrarre creator e influencer, aumentando la produzione di contenuti personalizzati e interattivi. Il che pare un chiaro tentativo di contrastare l’ascesa di strumenti simili da parte dei concorrenti e di rafforzare la propria offerta nell’ambito dei social media, dove il video è ormai il formato dominante.
Cos’è Movie Gen
Movie Gen è composto da una collezione di modelli, il più avanzato dei quali consente di trasformare semplici frasi in video completi, inclusi suoni contestuali.
Ad esempio, l’algoritmo è capace di aggiungere rumori di motore per un’auto in movimento, il fragore di una cascata o un tuono improvviso in una scena di temporale. Tuttavia, non supporta ancora la generazione di voci, una funzione che Meta ha saggiamente scelto di posticipare.
Oltre alla complessità tecnica di sincronizzare il parlato col labiale, la decisione di non includere la voce in Movie Gen potrebbe avere anche motivazioni politiche. In un periodo di crescente attenzione sui deepfake e la disinformazione, il rilascio di uno strumento così potente, a poche settimane dalle elezioni negli Stati Uniti, sarebbe problematico.
Limitare la capacità di generare contenuti falsi, come politici che fanno dichiarazioni controverse, appare dunque una misura precauzionale che Meta ha deciso di adottare per evitare l’insorgere di polemiche.
I video sono editabili
Uno dei maggiori ostacoli nella generazione video basata su testo è la difficoltà di modificare i contenuti. Fino a oggi, una piccola variazione nel prompt poteva generare risultati completamente diversi.
Meta cerca di ovviare a questo problema offrendo un sistema di editing basato su testo, che pare analogo a quanto già possibile con Dall-E su ChatGPT. Questo significa che è possibile cambiare dettagli come lo sfondo o il colore degli abiti senza compromettere l’intera scena, aprendo così una nuova strada nella personalizzazione dei video generati.
Anche il movimento della telecamera è considerato dal sistema: istruzioni come “panoramica a sinistra” o “ripresa in movimento” possono essere incorporate nel video, anche se con una fluidità ancora lontana dall’abilità di un operatore umano.
Sedici secondi, sedici… fotogrammi?
Movie Gen presenta limitazioni tecniche piuttosto evidenti. La risoluzione nativa dei video generati è di 768 pixel di larghezza, che viene successivamente aumentata a 1080p attraverso l’upscaling, il che però non garantisce la qualità di un video nativamente in Full HD.
Inoltre, la durata massima dei video è di soli 16 secondi, con un frame rate di 16 fps, una scelta decisamente insolita, anche se esiste l’opzione di produrre 10 secondi di video a 24 fps, una frequenza più adatta per i contenuti di qualità.
Meta non intende rilasciare pubblicamente il codice alla base di Movie Gen, a differenza di quanto fatto per il suo modello di linguaggio Llama. I ricercatori e gli sviluppatori potranno però esaminare il dataset utilizzato per valutare i prompt, ma nulla di più.
C’è anche Meta
Nonostante la notevole attenzione che sta ricevendo, rimane da vedere come e quando Movie Gen troverà un’applicazione pratica. Non a caso un portavoce di Meta ha dichiarato a TechCrunch che “Movie Gen, in questo momento, è puramente un concept di ricerca nell’intelligenza artificiale, e anche in questa fase iniziale la sicurezza è una priorità assoluta”.
La sensazione, dunque, è che dopo essere stata sopravanzata da numerosi concorrenti, Meta sia interessata più a mettere un segnalino sulla mappa del text-to-video, che non a realizzare qualcosa che abbia un immediati sbocco sul mercato.
Ma sebbene Movie Gen non sia ancora disponibile al pubblico e resti per ora limitato a pochi dipendenti e partner selezionati, Meta sta già discutendo l’integrazione del modello nelle sue app entro il prossimo anno. Questo sforzo si inserisce in una strategia più ampia che ha visto l’azienda investire miliardi di dollari in IA generativa, con l’obiettivo finale di superare la concorrenza non solo sul fronte tecnologico, ma anche in termini di esperienza utente.
Per ora, insomma, Movie Gen rappresenta una prova del fatto che siamo solo all’inizio dell’esplorazione delle potenzialità del video generativo, e che Meta non vuole farsi trovare impreparata.
Ma con l’evoluzione della tecnologia, le opportunità per questo tipo di strumenti potrebbero emergere in contesti ancora imprevedibili.


