Arriva VASA-1, il sistema per la generazione di volti di Microsoft

da | 20 Apr 2024 | IA

OpenAI in questi mesi ci ha sorpreso coi modelli Sora e Voice Engine: il primo è capace di creare video da del semplice testo; il secondo è in grado di clonare qualsiasi voce a patto di averne un campionamento di almeno 15 secondi.

L’introduzione di VASA-1, che pare voler unire questi due software sebbene per un compito molto più ristretto e definito, segna comunque un passo in avanti significativo nella creazione di volti parlanti estremamente realistici, generati in tempo reale.

Questo modello, a partire da una semplice foto e un clip audio di un discorso, è capace di produrre video di volti che parlano, col labiale sincronizzato con l’audio e caratterizzati da movimenti naturalistici della testa ed espressioni facciali coerenti.

Il cuore di VASA, acronimo di Visual Affective Skills, è un modello capace di catturare un ampio spettro di sfumature facciali e di movimenti della testa, che contribuiscono all’autenticità e alla vitalità percepite.

VASA-1 ha dimostrato, attraverso una serie di esperimenti e di nuove metriche di valutazione, di superare i metodi precedenti in diversi ambiti chiave. La sua tecnologia non solo assicura un’elevata qualità video ma permette anche la generazione in tempo reale di video a 512×512 pixel fino a 40 FPS, con una latenza di avvio praticamente trascurabile.

Uno degli aspetti più interessanti è la capacità di generalizzazione del modello fuori dalla distribuzione originale. VASA-1 può gestire foto artistiche, audio di canto e discorsi in lingue diverse dall’inglese, tipologie di dati non presenti nel set di addestramento. Inoltre,  permette un controllo separato dell’aspetto, della posa in 3D della testa e della dinamica facciale, facilitando la personalizzazione del contenuto generato.

Nonostante le notevoli potenzialità, gli sviluppatori di VASA-1 sono consapevoli dei rischi legati all’uso improprio di queste tecnologie, come l’impersonificazione di persone reali. Per questa ragione, l’obiettivo di Microsoft è utilizzare VASA-1 per promuovere applicazioni positive, come il “miglioramento dell’equità educativa, l’aumento dell’accessibilità per individui con difficoltà comunicative e il supporto terapeutico”. È inoltre in corso lo sviluppo di tecniche per il rilevamento di falsificazioni, con l’obiettivo ultimo di progredire nel benessere umano.

Attualmente il colosso di Seattle non prevede la release di demo online, API o altro fino a quando non sarà assicurato un utilizzo responsabile della tecnologia, in conformità con le normative. Il futuro ci dirà se e come Microsoft riuscirà a perseguire questi obiettivi.

POTREBBE INTERESSARTI

Jen-Hsun Huang durante una presentazione di Nvidia

Nvidia batte Microsoft ed è la società che vale di più al mondo

Spinta dal crescente interesse nel comparto dell'intelligenza artificiale, settore in cui è leader grazie ai suoi processori di fascia alta, Nvidia ha infranto un nuovo...
Il segretario della NATO Jens Stoltenberg

La NATO investe mille miliardi di euro in IA, robot e spazio

La NATO investe mille miliardi di euro in 4 aziende specializzate in tecnologia per lo sviluppo di IA, robotica e ingegneria spaziale.

I robots di Ex-Robots

In Cina stanno costruendo robot con espressioni facciali umane

L’ultima frontiera della tecnologia fonde la robotica con l’intelligenza artificiale. L’obiettivo è quello di usare l’IA per dare ai robot...
Sam Altman potrebbe trasformare OpenAI in una società benefit foto: Joel Saget/AFP/Getty Images

OpenAI potrebbe diventare una società benefit (e perseguire il profitto)

OpenAI, per competete al meglio contro Anthropic e xAI, potrebbe cessare di essere una no-profit. E c’è già chi come passo successivo s’immagina...
NVIDIA lancia Nemotron-4 340B per la generazione di dati sintetici

NVIDIA lancia Nemotron-4 340B per la generazione di dati sintetici

La famiglia di modelli Nemotron-4 340B servirà per l’addestramento dei degli LLM in tutti quei casi in cui i dati reali sono costosi, difficili da ottenere o...
Ai giovani piace l'idea di affidarsi all'IA per gestire il proprio denaro

Giovani e IA: è una nuova era per la gestione finanziaria?

A Generazione Z e Millennials piace l’idea di affidarsi all’IA per gestire il proprio denaro. Scettici invece Generazione X e i Baby Boomers.

Meta sospende il lancio dei modelli di IA in Europa

Meta sospende il lancio dei modelli di IA in Europa

La scelta è dovuta alla richiesta dell’Irlanda. Delusa Meta, soddisfatte NYOB, DPC e ICO.

Dream Machine è in grado di generare 120 fotogrammi di video in 120 secondi

Dream Machine: il text-to-video di Luma Labs è già disponibile

Dream Machine è in grado di generare 120 fotogrammi di video in 120 secondi.

I robot Optimus di Tesla starebbero già lavorando in fabbrica senza intervento umano
,

Tesla rivela che due robot Optimus già lavorano… autonomamente

I robot Optimus di Tesla starebbero già lavorando in fabbrica senza intervento umano. Saranno in vendita dal prossimo anno.

di Apple Intelligence vedrà la collaborazione tra Apple e OpenAI.
,

Apple Intelligence: come funzionerà l’accordo con OpenAI?

Superato l’annuncio della WWDC 2024, restano aperti molti interrogativi non solo sul presente ma anche sul futuro di Apple Intelligence. Ecco quali…

Share This