Google DeepMind ha presentato una nuova ricerca chiamata SIMA (Scalable Instructable Multiworld Agent). Si tratta di un agente AI per impostazioni virtuali 3D, nato dalla collaborazione con numerosi sviluppatori di videogiochi, tra cui figurano Hello Games (No Man’s Sky) e Tuxedo Labs (Teardown).
Sono stati utilizzati quattro ambienti di ricerca, incluso uno inedito creato internamente con Unity chiamato Construction Lab, in cui l’IA doveva ricavare sculture da blocchi che hanno messo alla prova la manipolazione degli oggetti e la comprensione intuitiva del mondo fisico.
Il punto di forza di SIMA è l’essere in grado di comprendere un’ampia gamma di mondi di gioco e di seguire le istruzioni del linguaggio naturale per svolgere compiti al loro interno, come farebbe un essere umano.
I videogiochi rappresentano un banco di prova fondamentale per i sistemi di intelligenza artificiale, dato che come il mondo reale sono ambienti di apprendimento ricchi di situazioni che richiedono reazioni in tempo reale e pongono obiettivi in continua evoluzione.
Imparando da diverse situazioni, SIMA comprende il modo in cui il linguaggio si lega al comportamento in gioco. Il primo approccio è stato quello di registrare coppie, con una persona che guardava e istruiva l’altra. È stato chiesto di giocare liberamente, poi di rivedere ciò che era stato fatto e di registrare le istruzioni che avrebbero portato alle azioni di gioco.
Per riuscire a riconoscere e comprendere i vari ambienti per poi raggiungere l’obiettivo indicato, SIMA sfrutta un modello progettato per una precisa mappatura del linguaggio delle immagini e un modello video che prevede cosa accadrà successivamente sullo schermo.
SIMA non ha bisogno di accedere al codice sorgente di un videogame per funzionare, né ad API personalizzate (interfacce che permettono a due software di comunicare tra loro). Richiede solo due input: le immagini sullo schermo e semplici istruzioni in linguaggio naturale fornite dall’utente. L’IA utilizza tastiera e mouse per controllare il personaggio principale dei videogiochi ed eseguire queste istruzioni, una semplice interfaccia che gli consente di interagire potenzialmente con qualsiasi ambiente virtuale.
L’attuale versione di SIMA viene valutata su 600 abilità di base che spaziano dal movimento all’interazione con gli oggetti e all’uso dei menu. Compiti semplici che possono essere completati in circa 10 secondi. L’obiettivo principale dello studio è che i futuri agenti IA riescano ad affrontate compiti che richiedono una pianificazione strategica di alto livello e molteplici sotto-attività da completare, come trovare risorse e costruire un campo base.
Un ulteriore punto di forza di SIMA è l’essere stato addestrato su molti giochi differenti, caratteristica che lo rende in grado di adattarsi e comprendere anche ambienti a lui sconosciuti, a differenza di altri sistemi analoghi specializzati in un titolo. La ricerca è ancora agli inizi ma i risultati mostrano il potenziale per sviluppare una nuova ondata di agenti IA guidati dal linguaggio.


