Voici Fugatto, l'IA de NVIDIA qui transforme le texte en son

Le géant américain NVIDIA vient de dévoiler sa toute nouvelle technologie boostée à l'AI : Fugatto. Cette dernière est en mesure de générer des sons sur la base d'une demande textuelle.

NVIDIA a présenté Fugatto, un nouvel outil audio boosté à l'IA © NVIDIA

Baptisée Fugatto (pour Foundational Generative Audio Transformer Opus), cette IA promet de générer ou de transformer n'importe quel type de musique, de voix et de sons décrits par des invites fondées sur des combinaisons de textes et de fichiers audio. Et force est d'admettre que la démonstration réalisée par NVIDIA est pour le moins bluffante.

Un IA mélomane chez NVIDIA : Fugatto

Sur le marché des intelligences artificielles consacrées à la musique, on connaît évidemment Suno, capable de générer une musique entière à partir d'une simple requête textuelle. Chez NVIDIA, on vient donc de présenter Fugatto, qui souhaite pour sa part apporter une dimension supplémentaire.

Selon ses concepteurs, Fugatto est en mesure de « créer un extrait musical à partir d'un texte, de supprimer ou d'ajouter des instruments à une chanson existante, de modifier l'accent ou l'émotion d'une voix, et même de permettre aux gens de produire des sons jamais entendus auparavant. »

Fugatto bientôt au service de la musique, du cinéma, des jeux vidéo… ?

Pour NVIDIA, l'une des grandes forces de Fugatto, c'est sa polyvalence, avec des possibilités quasiment infinies. Outre la génération de sons, de musiques et autres bruitages, son IA peut également inventer des sons, comme faire aboyer une trompette ou miauler un saxophone, sans oublier la manipulation de sons et de musiques déjà existants.

Comme on le fait avec une IA générative pour la création d'images, il suffit de fournir une description textuelle à Fugatto, pour que cette dernière transforme la requête en un son, une musique, une voix…

Une simple requête textuelle, et Fugatto propose aussitôt une transcription audio © NVIDIA

Selon NVIDIA, Fugatto repose sur une architecture composée de plus de 2,5 milliards de paramètres, avec en prime une fonction d'interpolation avancée, permettant (entre autres) de gérer l'intensité de certains effets, comme ajouter un accent à une voix ou transformer une voix calme en une voix (plus ou moins) colérique.

Dans l'exemple proposé par NVIDIA, on peut aussi voir Fugatto créer un son à partir de la commande : « Créer un son où un train passe et se transforme en un orchestre de cordes luxuriant ». On peut également isoler la partie vocale d'un morceau en proposant à Fugatto le morceau musical en question et la requête textuelle associée.

On peut également isoler la piste vocale d'un morceau, transformer un son MIDI en un morceau pop rock, ajouter des instruments... © NVIDIA

Les développeurs de jeux vidéo peuvent également faire appel à Fugatto pour modifier les éléments préenregistrés de leur jeu afin de les adapter à l'évolution de l'action par exemple, sans oublier là encore la création de nouveaux éléments à la volée à partir d'instructions textuelles et/ou d'entrées audio.

Petit bémol toutefois : NVIDIA n'a pas annoncé la moindre date de disponibilité publique concernant son nouvel outil audio Fugatto. Reste à savoir comment ce dernier va transformer la manière dont on crée actuellement des contenus audio…

À découvrir

Quels sont les meilleurs générateurs de musique par intelligence artificielle ? Comparatif 2025

19 novembre 2024 à 16h54

Comparatifs services

Source : Engadget