VoiceBox est le dernier modèle de génération text-to-speech (TTS) présenté par Meta. Sa promesse ? Révolutionner le domaine de la voix synthétique par l'IA grâce à l'apprentissage contextuel.
Son petit nom : VoiceBox. Cette IA de génération de voix est en passe de faire de la parole ce que ChatGPT et DALL-E ont fait respectivement pour la génération de texte et d'images. Cette IA de génération de voix utilise un modèle d'apprentissage pour instiller la parole dans un contexte textuel et audio. Il est entraîné grâce à 50 000 heures d'enregistrements de livres audio en français, anglais, espagnol, allemand, polonais et portugais. Révolutionnaire, vraiment ?
L'apprentissage contextuel pour des performances exceptionnelles
L'apprentissage contextuel est ce qui distingue VoiceBox des autres générateurs de voix. Il a été exercé pour prédire des segments de paroles en analysant les autres segments qui l'entourent. L'outil complète la parole à partir du contexte qu'on lui donne et est capable de générer des portions de discours sans avoir à reconstituer l'intégralité des textes donnés en entrée.
Il est également en capacité d'éditer des clips audio en éliminant les bruits indésirables ou en remplaçant des phrases mal prononcées. Cette habileté offre la possibilité aux utilisateurs de styliser, nettoyer et éditer des enregistrements sonores plus intuitivement. La flexibilité d'usage potentielle offerte par VoiceBox n'est pour l'instant pas égalée.
Polyvalent et efficient
Contrairement aux autres générateurs text-to-speech traditionnels, VoiceBox ne nécessite pas de bases de données colossales pour traiter un sujet spécifique. Reposant sur une méthode d'apprentissage novatrice nommée Flow Matching, il est capable de fonctionner 20 fois plus rapidement que les systèmes actuels. Pour l'instant, il excelle aux résultats des tests : 1,9 % de taux d'erreurs seulement, et un taux d'intelligibilité bien plus élevé que ses concurrents.
Ces performances ouvrent de nombreuses possibilités d'applications. VoiceBox pourrait être utilisé dans des domaines tels que les assistants virtuels ou les outils de création audio dans les vidéos. Une utilisation dans le metaverse pour animer des personnages non joueurs est également envisageable.
Meta marque clairement sa volonté de se positionner dans le domaine de la génération de voix synthétique. VoiceBox, armé d'un nouveau système d'apprentissage contextuel, se montre déjà plus performant que la concurrence. Parviendra-t-il à se faire une place dans la grande démarche de démocratisation des systèmes d'IA ?