Voice Engine: a OpenAI bastano 15 secondi di una voce per clonarla

da | 30 Mar 2024 | IA

OpenAI, la startup più famosa al mondo nel campo dell’intelligenza artificiale, ha recentemente fatto un altro annuncio di quelli dirompenti. Ieri, infatti, ha presentato Voice Engine, una tecnologia rivoluzionaria capace di ricreare con precisione le voci umane con appena 15 secondi di parlato. Questo nuovo strumento arriva subito dopo l’annuncio di Sora, una tecnologia in grado di generare immagini digitali e video in movimento a partire da semplici descrizioni testuali.

Voice Engine, che si trova attualmente in fase di test presso un ristretto gruppo di aziende selezionate, promette di leggere qualsiasi testo venga fornito utilizzando una voce sintetica che assomiglia sorprendentemente a quella della persona registrata.

È da notare che il testo da leggere non deve necessariamente essere nella lingua madre dell’utente; Voice Engine è infatti capace di riprodurre la voce registrata in una vasta gamma di lingue, tra cui spagnolo, francese e cinese, aprendo così nuove possibilità.

L’impiego di questa tecnologia spazia dalla generazione di audiolibri alla voce per chatbot online, fino alla creazione di DJ radiofonici robottizzati. Crediamo che neanche il doppiaggio resterà immune a questa nuova rivoluzione introdotta da Sam Altman, il cui impatto sulla società comincia a essere degno dei libri di storia.

OpenAI, che già utilizza una tecnologia simile per alimentare la versione parlante di ChatGPT, si avventura dunque in territori ancora più ambiziosi. Tuttavia, la potenziale pericolosità di tale tecnologia non passa inosservata. A tal proposito OpenAI dichiara di voler procedere con cautela, conscia dei rischi che un generatore di voci così avanzato potrebbe comportare, dalla diffusione di disinformazione all’impersonificazione di individui online o attraverso chiamate telefoniche.

In particolare, è palpabile la preoccupazione che Voice Engine possa essere utilizzato per violare sistemi di autenticazione vocale, mettendo a rischio conti bancari online e altre applicazioni personali. “Questo è un aspetto delicato e importante da gestire correttamente”, ha affermato Jeff Harris, product manager di OpenAI, sottolineando l’importanza di un approccio responsabile nello sviluppo e nella distribuzione di tale tecnologia.

L’azienda sta valutando soluzioni come l’inserimento di watermark sulle voci sintetiche e il rafforzamento dei controlli per prevenire usi impropri. Sospettiamo che ciò non sarà sufficiente ma vogliamo comunque ricordare che questa tecnologia ha dimostrato di avere applicazioni positive. Come nel caso di una donna che, grazie a una registrazione di quando era liceale, ha potuto riavere una voce dopo che un tumore al cervello l’aveva compromessa.

La strada da percorrere è senz’altro lunga e ricca di sfide, soprattutto in un contesto elettorale dove il rischio di abusi aumenta significativamente, come dimostrato dalle robocall con la voce di Joe Biden ricevute dai residenti del New Hampshire lo scorso novembre.

Un po’ come con Sora, OpenAI al momento non pare intenzionata a monetizzare affrettatamente questa tecnologia. E afferma di voler esplorare il suo potenziale per migliorare la vita delle persone in modi ancora da immaginare, rimanendo vigile sui possibili pericoli che essa comporta. Ci riuscirà?

POTREBBE INTERESSARTI

Apple rinvierà il lancio di Apple Intelligence nell'UE
,

Apple rinvierà il lancio di Apple Intelligence nell’UE

Il gigante tecnologico indica il Digital Markets Act come la causa di questa decisione.

TikTok prova a rivoluzionare l'ADV ma inciampa clamorosamente

TikTok prova a rivoluzionare l’ADV ma inciampa clamorosamente

I Symphony Digital Avatars, il nuovo strumento di TikTok per la creazione di contenuti generati dall’IA, finiscono nel mirino dopo che una falla ha consentito la...
Ecco come di comporta Claude 3.5 Sonnet rispetto agli altri modelli.

Più veloce e intelligente: ecco Claude 3.5 Sonnet

Claude 3.5 Sonnet è il modello più avanzato di Anthropic, e promette prestazioni superiori a GPT-4 e Gemini

Il produttore di chip TSMC vola in borsa

La valutazione di TSMC vola alle stelle trascinata di Nvidia

TSMC si sta avvicinando alla valutazione di mille miliardi di dollari a Wall Street trascinata da Nvdia e dall’esplosione dell’IA.

L'IA non è in grado di prendere ordini da McDonald's

McDonald’s: l’IA non è ancora in grado di prendere gli ordini al drive-in

McDonald’s, la famosa catena di fast food, negli Stati Uniti ha deciso di disabilitare un sistema basato sull’intelligenza artificiale utilizzato nei...
Jen-Hsun Huang durante una presentazione di Nvidia

Nvidia batte Microsoft ed è la società che vale di più al mondo

Spinta dal crescente interesse nel comparto dell’intelligenza artificiale, Nvidia ha infranto un nuovo record in borsa, superando anche Microsoft.

Il segretario della NATO Jens Stoltenberg

La NATO investe mille miliardi di euro in IA, robot e spazio

La NATO investe mille miliardi di euro in 4 aziende specializzate in tecnologia per lo sviluppo di IA, robotica e ingegneria spaziale.

I robots di Ex-Robots

In Cina stanno costruendo robot con espressioni facciali umane

L’ultima frontiera della tecnologia fonde la robotica con l’intelligenza artificiale. L’obiettivo è quello di usare l’IA per dare ai robot...
Sam Altman potrebbe trasformare OpenAI in una società benefit foto: Joel Saget/AFP/Getty Images

OpenAI potrebbe diventare una società benefit (e perseguire il profitto)

OpenAI, per competete al meglio contro Anthropic e xAI, potrebbe cessare di essere una no-profit. E c’è già chi come passo successivo s’immagina...
NVIDIA lancia Nemotron-4 340B per la generazione di dati sintetici

NVIDIA lancia Nemotron-4 340B per la generazione di dati sintetici

La famiglia di modelli Nemotron-4 340B servirà per l’addestramento dei degli LLM in tutti quei casi in cui i dati reali sono costosi, difficili da ottenere o...
Share This