Deepmind, l’intelligenza artificiale di Google, è in grado di creare dialoghi e colonne sonore

da | 19 Giu 2024 | IA

DeepMind, la divisione impegnata a sviluppare innovazioni legate all’intelligenza artificiale di Google, afferma di essere al lavoro su una tecnologia I.A. in grado di generare suoni sincronizzati coi i video.

In un post sul blog ufficiale, DeepMind afferma di aver creato una tecnologia in grado di superare uno dei limiti più comuni dei modelli IA attualmente più diffusi, anche quello creato dalla stessa divisione di Google: l’I.A. può generare video, ma non può creare effetti sonori sincronizzati con le immagini generate.

“I modelli di generazione video stanno avanzando a un ritmo incredibile, ma molti sistemi attuali possono generare solo output silenziosi”, scrive DeepMind. “La tecnologia V2A potrebbe diventare uno strumento promettente per dare vita a interi film generati dall’IA”.

La tecnologia V2A è in grado di partire da una descrizione e da un video (ad es. “meduse pulsanti sott’acqua, vita marina, oceano”) e creare musica, effetti sonori e persino dialoghi a tono con le immagini.

“Allenandosi su video, audio e annotazioni aggiuntive la nostra tecnologia impara ad associare specifici eventi audio con varie scene visive, rispondendo alle informazioni fornite nelle annotazioni o nelle trascrizioni”, si legge nel blog DeepMind.

Apparentemente quella presentata da DeepMind non è una novità. Sono diverse le startup che nelle settimane scorse hanno provato a proporre qualcosa di simile. La divisione di Google, però, sostiene che la tecnologia V2A è unica nel suo genere in quanto può comprendere i pixel grezzi di un video e sincronizzare automaticamente i suoni generati con le immagini.

Si tratta, però, solo del primo passo. V2A non è perfetto e persino DeepMind lo riconosce. È ancora in fase di “addestramento” e sono tanti i tipi di audio che non è in grado di riprodurre in maniera convincente. Inoltre quello che crea per il momento viene definito “stereotipato” da chi lo ha sentito.

Anche per questo motivo DeepMind afferma che per il momento non renderà pubblica la tecnologia e forse non lo farà mai. Nonostante gli utilizzi concreti, il pericolo di IA generative di questo tipo è quello di sconvolgere l’industria del cinema e della TV. Il pericolo, quindi, è quello sia di perdere migliaia di posti di lavoro, sia quello di infrangere diverse proprietà intellettuali.

POTREBBE INTERESSARTI

Brad Smith, presidente di Microsoft

Microsoft promette: i nostri data center non peseranno sulle bollette degli americani

L’azienda si impegna a non chiedere sgravi fiscali e a formare i residenti. Brad Smith: “Non chiediamo ai contribuenti di sovvenzionarci”.

Matthew McConaughey

McConaughey registra sé stesso come marchio contro i deepfake

Otto trademark approvati negli USA trasformano l’immagine dell’attore in un asset legale. Nel vuoto normativo sui deepfake, Hollywood ricorre...
Google AI Overviews

Google rimuove le AI Overviews per alcune ricerche mediche

Un’indagine del Guardian documenta errori potenzialmente letali nei riassunti sanitari del motore di ricerca. Il tempismo col lancio di ChatGPT Health solleva...
Google agente

Google entra nello shopping con gli agenti IA per i retailer

Con Gemini Enterprise for Customer Experience, Big G offre strumenti per costruire assistenti virtuali proprietari. Ma il commercio agentico è davvero dietro...
Apple Intelligence Siri

Siri parlerà con la voce di Gemini: Apple sceglie Google per l’IA

Annunciata ieri una partnership che riscrive gli equilibri del mercato. E anche una svolta storica che solleva domande sul futuro della privacy di Cupertino.

Nvidia CES 2026 Jensen Huag

Al CES 2026 la Silicon Valley ha scelto Trump

La Genesis Mission, Nvidia e il nuovo asse Washington-Silicon Valley: al Consumer Electronics Show è andata in scena la fine della neutralità tech.

Harry Potter e la Pietra Filosofale

I ricercatori sono riusciti a estrarre Harry Potter (quasi per intero) dai principali LLM

Una ricerca di Stanford dimostra che Claude, GPT-4.1, Gemini e Grok hanno memorizzato interi libri protetti da copyright. E possono riprodurli quasi parola per...
Grok

Grok, la risposta di Musk ai deepfake è farli pagare

Dall’Indonesia al Regno Unito, i governi reagiscono ai deepfake di Grok. Musk attacca gli inglesi: “Fascisti”. Ma intanto le immagini abusive...
Character

Google e Character.AI, accordi milionari per evitare il processo

Le famiglie ottengono risarcimenti per i suicidi legati al chatbot, ma il vuoto normativo sulla responsabilità dell’IA generativa resta intatto.

Andreessen Horowitz

Il secolo americano di Andreessen Horowitz: 15 miliardi per blindare il futuro tech

Dalla difesa all’intelligenza artificiale: come il colosso di Menlo Park sta puntando a riscrivere il rapporto tra capitale privato, sovranità e potere.

Share This