I ricercatori di Google hanno pubblicato un nuovo modello di intelligenza artificiale generativa in grado di creare videogame giocabili da un semplice suggerimento, dopo aver appreso le meccaniche di gioco da centinaia di migliaia di video.
Sviluppato attraverso una collaborazione tra Google e l’Università della British Columbia, Genie, abbreviazione di Generative Interactive Environments, è capace di realizzare platform 2D a scorrimento laterale basati sulle istruzioni dell’utente, utilizzando una singola immagine.
L’IA può creare ambienti interattivi e riproducibili a partire da un singolo prompt di immagine grazie a quello che i ricercatori di Google descrivono come un modello di azione latente che deduce le azioni tra i fotogrammi video, un tokenizzatore video (software che divide un testo in unità più piccole) che converte i fotogrammi video grezzi in token più semplici da elaborare e un modello dinamico che determina il fotogramma successivo.
Tim Rocktäschel, sviluppatore di Google DeepMind, ha recentemente pubblicato un tweet in cui afferma che il suo team non cerca di forzare i propri modelli a imparare determinati comportamenti o preconcetti ma si concentra sulla fornitura di grandi quantità di dati al modello, in modo che possa apprendere autonomamente.
I am really excited to reveal what @GoogleDeepMind‘s Open Endedness Team has been up to 🚀. We introduce Genie 🧞, a foundation world model trained exclusively from Internet videos that can generate an endless variety of action-controllable 2D worlds given image prompts. pic.twitter.com/TnQ8uv81wc
— Tim Rocktäschel (@_rockt) February 26, 2024
Genie ha una capacità di 11 miliardi di parametri, il che lo rende uno dei modelli di IA più complessi al mondo, e si basa su un enorme dataset di 200.000 ore di video. Può trasformare una varietà di input, tra cui immagini, testi e persino schizzi disegnati a mano, in mondi virtuali 2D giocabili.
Ciò apre nuove possibilità per la creazione di giochi e la fruizione di contenuti multimediali, inoltre può servire per addestrare altri modelli di intelligenza artificiale a interagire con mondi 3D. Il che potrebbe essere utile per lo sviluppo di robot e altri sistemi di IA che necessitano di una comprensione del mondo fisico.
Il modello non è stato esplicitamente istruito su come svolgere compiti specifici ma ha dovuto imparare autonomamente dalle informazioni contenute nei dati. Ciò implica che il modello può ora essere utilizzato per controllare robot e altri sistemi di intelligenza artificiale in ambienti virtuali.
Gli sviluppatori di Genie ritengono che il modello possa essere un passo promettente verso lo sviluppo di modelli di intelligenza artificiale generale (AGI), un tipo di intelligenza artificiale in grado di comprendere e ragionare come un essere umano. I test, stando al team di sviluppo, indicano che le azioni latenti apprese da Genie possono traslarsi in ambienti reali progettati dall’uomo, ma anche che questo è solo un frammento di ciò che potrebbe essere possibile in futuro.


