Che Google e OpenAI/Microsoft ormai si marchino a uomo, è cosa nota. D’altronde, l’abbiamo scritto anche in apertura dell’articolo dedicato ad AI Overviews.
La conferma, qualora ce ne fosse bisogno, arriva da uno dei tanti annunci fatti ieri al Google I/O di ieri. Ci riferiamo a Veo, nuovo modello text-to-video progettato per competere con Sora di OpenAI e altri modelli di generazione video quali Pika, Runway e Irreverent Labs.
È capace di catturare diversi stili visivi e cinematografici, inclusi paesaggi e time-lapse, e può anche modificare filmati già generati. Demis Hassabis, capo del laboratorio di ricerca AI di Google, DeepMind, ha sottolineato i progressi compiuti nel campo dei video, affermando che sono in corso di studio funzionalità quali lo storyboarding e la generazione di scene più lunghe.
Veo si basa sul lavoro preliminare di Google nella creazione dei video, presentato ad aprile, che utilizzava la famiglia di modelli di generazione di immagini Imagen 2 per realizzare videoclip in loop. A differenza però dello strumento basato su Imagen 2, che poteva creare solo video a bassa risoluzione e di pochi secondi, Veo si presenta sul mercato come un modello molto più competitivo.
Douglas Eck, responsabile delle ricerche sui media generativi presso DeepMind, ha mostrato in quel di Mountain View alcuni esempi delle capacità di Veo. Un video particolarmente impressionante è stato quello che mostrava la vista aerea di una spiaggia affollata, che ha messo in mostra la capacità di Veo di gestire dettagli complessi e numerosi personaggi in movimento.
Eck ha descritto Veo come “molto controllabile”, capace cioè di comprendere i movimenti della telecamera e gli effetti visivi dai prompt, oltre ad avere una certa comprensione della fisica, come la dinamica dei fluidi e la gravità. Veo supporta anche l’editing attraverso maschere per apportare modifiche a specifiche aree di un video e può generare video a partire da un’immagine fissa. Inoltre, datagli in pasto una sequenza di prompt che raccontano una storia, Veo può generare video più lunghi di un minuto.

Tuttavia, agli occhi di chi l’ha visto in azione, Veo non è esente da difetti. Gli oggetti presenti nei video possono scomparire e riapparire senza spiegazione o coerenza, e spesso sbaglia la fisica, come nel caso di alcune auto che si muovevano in modo irrealistico. Per questo motivo, Veo sarà inizialmente disponibile su Google Labs solo in lista d’attesa, all’interno di una nuova interfaccia per la creazione e l’editing di video generati da intelligenza artificiale chiamata VideoFX. Google prevede di portare alcune capacità del modello su YouTube Shorts e altri prodotti in futuro.
Veo è stato addestrato su una vasta quantità di filmati, seguendo il consueto approccio dei modelli di intelligenza artificiale generativa, che apprendono i pattern nei dati per generare nuovi contenuti. Eck ha confermato che alcuni di questi filmati potrebbero provenire da YouTube, ma sempre in conformità con gli accordi con i creatori di contenuti.
Questa affermazione, sebbene tecnicamente vera, solleva alcuni questioni etiche, considerando che i creator su YouTube non hanno molte alternative se vogliono raggiungere il pubblico più vasto possibile. Un articolo del New York Times ha rivelato infatti che l’anno scorso Google ha allentato le restrizioni sui dati di YouTube, ampliandone i termini di servizio, proprio per consentire l’utilizzo di più dati per l’addestramento dei modelli di intelligenza artificiale.
Google ha già reso Veo disponibile ad alcuni creator, tra cui Donald Glover (alias Childish Gambino) e la sua agenzia Gilga, posizionando Veo come uno strumento per i creativi. Tuttavia, a differenza di alcuni concorrenti, Google non offre un meccanismo per permettere ai creator di rimuovere il proprio lavoro dai set di dati di addestramento dopo la raccolta.
In sintesi, al netto delle questioni etiche e tecniche che abbiamo appena discusso, e che dovranno essere affrontate nel tempo, Veo senz0altro rappresenta un importante passo avanti per Google nel campo della generazione di video tramite intelligenza artificiale.
E con Sam Altman che nei mesi scorsi ha fatto il giro delle major hollywoodiane per mostrare il proprio Sora, siamo sicuri che in futuro ne vedremo (è proprio il caso di dirlo), delle belle.


