Fugatto: l'intelligenza artificiale crea voce, musica ed effetti sonori dal testo (immagine: riproduzione/Nvidia)
Il meglio della tecnologia è arrivato il nostro canale WhatsApp
“Un coltellino svizzero per il suono.” È così che Nvidia descrive la sua ultima impresa nel campo dell'intelligenza artificiale (AI). La società ha annunciato il Foundational Generative Audio Transformer Opus 1, o semplicemente Fugatto, un motore di intelligenza artificiale generativa che produce audio da testi digitati dall'utente (prompt).
Fugatto può essere utilizzato, ad esempio, per generare voci, musica ed effetti sonori, nonché per modificare o migliorare materiali audio esistenti, utilizzando sempre i suggerimenti come punto di partenza.
Supponiamo, ad esempio, di aver creato una canzone, ma di volervi aggiungere rapidamente degli strumenti. O che, in una narrazione, vuoi dare alla tua voce un accento o un'intonazione diversa che esprima qualche tipo di emozione. Oppure vuoi creare una pubblicità audio per un prodotto nel tuo negozio.
Fugatto è stato sviluppato in modo che queste e molte altre applicazioni possano essere servite tramite istruzioni testuali. « Volevamo creare un modello che comprendesse e generasse suoni come fanno gli esseri umani », spiega Rafael Valle, responsabile della ricerca audio applicata presso Nvidia.
Sebbene gli strumenti di intelligenza artificiale generativa che producono contenuti audio non siano una novità, l’azienda sottolinea che Fugatto è il primo modello nel suo genere i cui risultati nascono dall’interazione di diverse competenze addestrate.
Le possibili applicazioni sono numerose. La stessa Nvidia menziona, come esempio, un'agenzia pubblicitaria che può utilizzare lo strumento per generare versioni di una campagna per diverse regioni, applicando accenti o emozioni alle narrazioni.
Altri esempi forniti dall'azienda: l'uso di Fugatto per generare voci personalizzate nell'apprendimento delle lingue, così come nello sviluppo di giochi, per adattare l'audio di un'azione a seconda di ciò che esegue il giocatore.
Il seguente video mostra Fugatto in azione:
Fugatto è il risultato di un lavoro di collaborazione tra ricercatori di diversi paesi, tra cui India, Brasile, Cina, Giordania e Corea del Sud. Questo approccio ha rafforzato le capacità multiaccento e multilingue della nuova funzionalità, spiega Nvidia.
Non sorprende che Fugatto richieda una struttura complessa per funzionare. Sempre secondo l'azienda, la versione completa del modello utilizza 2,5 miliardi di parametri ed è stata addestrata su sistemi Nvidia DGX con 32 GPU H100 Tensor Core ciascuno.
Disponibilità fugatto
La doccia fredda arriva adesso: Nvidia non ha ancora rivelato quando e se Fugatto verrà rilasciato come strumento pubblico. Se è così, è possibile che Nvidia lo faccia sotto forma di strumento a pagamento.
Un'altra possibilità è che la tecnologia venga incorporata negli strumenti di editing o creazione audio. Ma ancora una volta non si sa né quando né come.
Per ora sembra che Nvidia sia più interessata a far capire che continua ad essere uno dei protagonisti quando si parla di IA generativa.
Con informazioni: Nvidia
Intelligenza artificialeNvidiaCorea del SudIndiaBrasileCina