DeepMind, la divisione impegnata a sviluppare innovazioni legate all’intelligenza artificiale di Google, afferma di essere al lavoro su una tecnologia I.A. in grado di generare suoni sincronizzati coi i video.
In un post sul blog ufficiale, DeepMind afferma di aver creato una tecnologia in grado di superare uno dei limiti più comuni dei modelli IA attualmente più diffusi, anche quello creato dalla stessa divisione di Google: l’I.A. può generare video, ma non può creare effetti sonori sincronizzati con le immagini generate.
“I modelli di generazione video stanno avanzando a un ritmo incredibile, ma molti sistemi attuali possono generare solo output silenziosi”, scrive DeepMind. “La tecnologia V2A potrebbe diventare uno strumento promettente per dare vita a interi film generati dall’IA”.
La tecnologia V2A è in grado di partire da una descrizione e da un video (ad es. “meduse pulsanti sott’acqua, vita marina, oceano”) e creare musica, effetti sonori e persino dialoghi a tono con le immagini.
“Allenandosi su video, audio e annotazioni aggiuntive la nostra tecnologia impara ad associare specifici eventi audio con varie scene visive, rispondendo alle informazioni fornite nelle annotazioni o nelle trascrizioni”, si legge nel blog DeepMind.
Apparentemente quella presentata da DeepMind non è una novità. Sono diverse le startup che nelle settimane scorse hanno provato a proporre qualcosa di simile. La divisione di Google, però, sostiene che la tecnologia V2A è unica nel suo genere in quanto può comprendere i pixel grezzi di un video e sincronizzare automaticamente i suoni generati con le immagini.
Si tratta, però, solo del primo passo. V2A non è perfetto e persino DeepMind lo riconosce. È ancora in fase di “addestramento” e sono tanti i tipi di audio che non è in grado di riprodurre in maniera convincente. Inoltre quello che crea per il momento viene definito “stereotipato” da chi lo ha sentito.
Anche per questo motivo DeepMind afferma che per il momento non renderà pubblica la tecnologia e forse non lo farà mai. Nonostante gli utilizzi concreti, il pericolo di IA generative di questo tipo è quello di sconvolgere l’industria del cinema e della TV. Il pericolo, quindi, è quello sia di perdere migliaia di posti di lavoro, sia quello di infrangere diverse proprietà intellettuali.


