Uno dei primi articoli che abbiamo scritto su TechTalking riguardava NVIDIA ACE, una suite avanzata di tecnologie basate sull’intelligenza artificiale generativa, progettata per creare esseri umani digitali altamente realistici. Non a caso, ACE è l’acronimo di Avatar Cloud Engine.
Essa permette agli sviluppatori di integrare avatar che interagiscono dinamicamente con gli utenti, utilizzando riconoscimento vocale, sintesi vocale e animazioni facciali sincronizzate. Quanto appena descritto è supportato da modelli linguistici come il Nemotron-4 4B (di cui abbiamo parlato qui), e sono eseguibili sia nel cloud sia localmente su dispositivi con GPU NVIDIA RTX.
Ed è proprio sul Nemotron-4 4B che ci focalizziamo in questo articolo. Alla Gamescom di quest’anno, la più importante fiera di videogiochi europea, NVIDIA ha fatto un annuncio significativo per il futuro dell’interazione tra esseri umani digitali e giocatori.
Ci riferiamo al Nemotron-4 4B Instruct, il primo modello linguistico di piccole dimensioni (SLM, o Small Language Model) on-device dell’azienda. È stato utilizzato per la prima volta nel gioco Mecha BREAK di Amazing Seasun Games, dimostrando come la tecnologia possa rendere le risposte dei personaggi non giocabili (o Non-Player Character, abbreviato in NPC) più rapide e pertinenti.
Nemotron-4 4B Instruct, dicevamo, è stato sviluppato per essere implementato localmente su PC e workstation basati su NVIDIA RTX, oltre che su cloud. Il modello, una versione più piccola e ottimizzata del più grande Nemotron-4 15B LLM. Ciò offre tempi di risposta più rapidi e un ingombro di memoria ridotto, permettendo così agli sviluppatori di giochi di migliorare significativamente l’esperienza di gioco.
L’SLM è stato progettato per comprendere in modo più intuitivo le istruzioni del giocatore, rispondere in maniera accurata e adattarsi dinamicamente alle interazioni nel gioco. Con un numero ridotto di parametri e una precisione ottimizzata, Nemotron-4 4B occupa meno memoria e offre un tempo di risposta iniziale più rapido rispetto al più grande modello linguistico Nemotron-4, mantenendo comunque un elevato livello di accuratezza grazie al processo di distillazione.
Questo approccio è fondamentale per i giochi che richiedono una latenza minima, poiché un modello più leggero e veloce può essere eseguito efficacemente su dispositivi che i consumatori possiedono già, senza la necessità di aggiornamenti hardware significativi.
La tecnologia ACE di NVIDIA però non si limita solo ai videogiochi. Include anche microservizi come NVIDIA Riva per il riconoscimento vocale automatico, il text-to-speech e NVIDIA Audio2Face, che sincronizza le espressioni facciali con i dialoghi. Questi strumenti consentono agli sviluppatori di creare esperienze conversazionali più naturali e coinvolgenti, non solo nel gaming ma anche in settori come il servizio clienti, la sanità e la vendita al dettaglio.
Con l’integrazione di questi microservizi, i personaggi digitali possono interagire con i giocatori e altri utenti in tempo reale, mostrando emozioni realistiche e rispondendo con un livello di profondità e realismo senza precedenti. Ciò non solo migliora l’esperienza di gioco ma apre nuove possibilità per l’utilizzo di esseri umani digitali in vari contesti professionali e di consumo.


