L’avènement de l’intelligence artificielle générative de textes semble déjà loin, même si ChatGPT n’a été lancé que fin 2022. Aujourd’hui, c’est l’ère des générateurs via IA de voix qui est en marche. À partir de quelques mots, il est possible de créer un rendu audio qui, pour certains, ressemble à s’y méprendre à une voix humaine. Ces intelligences artificielles trouvent principalement leur place dans le milieu professionnel, où elles offrent un gain de temps et d’argent. Mais elles sont également une aide précieuse pour les personnes malvoyantes, entre autres. Clubic vous propose de (re)découvrir les 5 meilleurs générateurs de voix par IA

NaturalReader
NaturalReader
  • Voix réalistes
  • Prise en charge de 25 langues
  • Compatibilité multiplateforme
Elevenlabs
Elevenlabs
  • Réalisme des voix
  • Gestion de l'intonation et des émotions
  • Nombreuses langues supportées
Voicify
Voicify
  • Plateforme musicale basée sur l'IA.
  • Création d'un cover en 1 minute.
  • Création de son propre modèle IA.

NaturalReader, l’assistant vocal

NaturalReader est un assistant pour faire gagner du temps. Il peut lire des livres, des mails, des fichiers… Il convertit tous les textes écrits en discours vocaux. Y compris les textes qui se trouvent sur un support physique, grâce à sa fonctionnalité OCR (reconnaissance optique de caractères, optical character recognition). Vous pouvez choisir de lire les textes avec votre propre voix. Pour cela, il suffit de la cloner avec un microphone et de l’« apprendre » au moteur de NaturalReader. Cette fonctionnalité spécifique est accessible pour plus de 100 langues.

L’extension Chrome de NaturalReader permet d’écouter des pages Web, des documents Google Docs, des livres Kindle, des mails… L’outil supporte plus de 20 formats différents (pdf, txt, doc, xls…). Tout cela dans plus de 35 langues et avec plus de 140 voix disponibles.

Comme c’est le cas pour de nombreux générateurs de voix par intelligence artificielle, l’interface de NaturalReader est en anglais. Cependant, dès l’arrivée sur le tableau de bord, un guide de démarrage rapide est proposé en français et l’utilisation de l’ensemble reste plutôt intuitive.

Guide de démarrage NaturalReader © Pascale Duc pour Clubic

NaturalReader est l’assistant idéal pour les personnes pressées, mais également pour celles souffrant de déficit visuel ou de troubles de la lecture. Et si un mot est mal prononcé, vous pouvez l’éditer en quelques clics, sur l’interface Web ou depuis votre mobile avec iOS ou Android.

  • Voix réalistes
  • Prise en charge de 25 langues
  • Compatibilité multiplateforme

ElevenLabs : plus qu’un text-to-voice

ElevenLabs ne se contente pas de changer un texte écrit en fichier audio. Il permet également de produire du speech-to-speech. Pour cela, il suffit d’uploader un fichier audio ou d’enregistrer sa propre voix pour qu’ElevenLabs en tire un nouvel extrait audio avec une voix naturelle. Plus fort encore : il peut cloner une voix pour l’utiliser facilement et rapidement par la suite afin de lire automatiquement des textes écrits. Cette fonctionnalité n’est toutefois accessible que pour les offres payantes (à partir de 5 dollars par mois). C’est le cas également du mode « dubbing » : ElevenLabs est capable de comprendre un texte audio et d’en générer une traduction dans une autre langue, tout en gardant la même voix

ElevenLabs peut produire, cloner, traduire des textes dans 29 langues, avec des milliers de voix uniques, y compris dans la version gratuite, qui permet de traiter 10 000 caractères par mois, soit environ 10 minutes d’audio.

Interface ElevenLabs © Pascale Duc pour Clubic

Malheureusement, l’interface d’ElevenLabs est en anglais. Elle reste cependant assez ergonomique, donc cela ne l’empêche pas de lire des textes en français et de les restituer avec une voix sans aucun accent. Ce problème de langue est également présent dans la fonctionnalité « text to sfx » (texte vers effet spécial) qui est censée transformer un texte en un effet spécial audio (le rugissement d’un lion par exemple). Ici, le prompt de base doit être en anglais si l’on espère obtenir un résultat, qui n’est d’ailleurs pas toujours fameux.

  • Réalisme des voix
  • Gestion de l'intonation et des émotions
  • Nombreuses langues supportées

Jammable : le champion du cover

Jammable (anciennement Voicify) n’est pas un simple outil de text-to-speech. Pourtant, il s’agit bien d’un générateur IA de voix. Mais il est destiné également à ajouter une des centaines voix disponibles en ligne sur la musique que vous uploadez. C’est très facile : vous choisissez une voix, vous uploadez un morceau de musique ou vous renseignez le lien vers une vidéo YouTube et la magie opère ! Jammable produit par exemple une version de Personal Jesus chantée par Donald Trump, ou Gigi l’amoroso par Homer Simpson. Il est même possible de faire un duo ou un trio ! Pour cet usage, le service est surtout ludique et principalement destiné aux particuliers. 

C’est après avoir sélectionné la voix que les fonctionnalités sont proposées : cover et duo (nous venons de le voir), text-to-speech classique (avec un mode « accent » amusant), ou microphone qui remplace votre propre voix par celle choisie.

Interface Jammable © Pascale Duc pour Clubic

Malheureusement, la génération de cover en version gratuite ne couvre que 30 secondes du morceau de musique uploadé. Pour l’avoir en entier, il faut s’acquitter d’un abonnement de 1,99 euro par mois, qui ne donne droit qu’à 25 crédits. Pour des crédits illimités, le tarif est de 9,99 euros par mois. La fonction text-to-speech n’est pas non plus accessible gratuitement. Bref, un service amusant, mais qui oblige à mettre la main au portefeuille presque immédiatement.

  • Plateforme musicale basée sur l'IA.
  • Création d'un cover en 1 minute.
  • Création de son propre modèle IA.
8 / 10

Murf : le couteau suisse de la génération de voix par IA

Murf est une IA qui génère des voix de synthèse depuis un catalogue de plus 120 modèles en 24 langues. En français, il est possible de choisir 12 voix (5 féminines et 7 masculines). Et vous pouvez aussi les trier par tranche d’âge. Murf est capable également de cloner une voix et la modifier, pour la réutiliser par la suite. Par exemple la vôtre, pour faciliter la création de vos podcasts. On apprécie aussi le fait de pouvoir partager l’espace de travail, pour un projet collaboratif. 

Interface de Murf © Pascale Duc pour Clubic

Le petit plus de Murf : un outil d’édition pour paramétrer la vitesse de lecture, la tonalité, le volume de la voix et lui ajouter des effets spéciaux, de la musique ou des images. Et même synchroniser une voix avec une vidéo uploadée. Malheureusement, pour être sûr d’utiliser au mieux ces fonctionnalités, il faut comprendre l’anglais. Certes l’interface est intuitive pour un usage de base, les pictos indiquent le chemin, mais certains réglages incluent des termes techniques moins accessibles.

Play.ht : simple et efficace

Play.ht a un avantage sur ses concurrents, il fait exactement ce que l’on attend de lui : transformer un texte écrit en un fichier sonore, au format .WAV ou .MP3, sans fonctionnalités de haut vol. On aime cependant pouvoir choisir l’intonation du rendu vocal (en colère, amical, triste…) et le type de voix (service client, actualités…). Malheureusement, cela n’est possible qu’avec les voix anglaises pour le moment. Pour les voix françaises, vous pouvez quand même régler la fréquence, la vitesse, le volume, ajouter une pause ou la gestion de la respiration.

Standard Studio Play.ht © Pascale Duc pour Clubic

Ce qu’on aime moins également, c’est le questionnaire d’entrée obligatoire, pour savoir l’usage exact que l’on compte faire de l’outil. Il pourrait faire tourner les talons lorsqu’on vient uniquement faire quelques tests. On n’aime pas non plus devoir sortir de l’interface classique (« Ultra-Realistic Studio ») pour basculer vers une interface spécifique (et plus cheap), « Standard Studio » si l’on ne veut pas utiliser des voix anglaises. Et bien sûr, on n’aime (toujours) pas que l’interface soit elle-même en anglais.

Générateur de voix par intelligence artificielle : les réponses à vos questions

Qu’est-ce qu’un générateur de voix par intelligence artificielle ?

Comme les intelligences génératives de texte produisent un contenu écrit, les générateurs de voix produisent un fichier audio restituant une voix à partir d’un texte écrit ou d’un autre fichier audio d’origine. Certaines de ces IA peuvent également imiter une voix qui leur est « apprise » via un microphone ou un fichier, pour la réutiliser ultérieurement.

Comment fonctionne un générateur de voix par intelligence artificielle ?

Ces services ont presque tous le même mode de fonctionnement. La source peut être un texte écrit, un fichier audio, un enregistrement du microphone, un lien vers une vidéo YouTube… Ils sont alimentés, comme toutes les IA, par les millions de données récupérées sur Internet depuis des années. L’outil Moshi (uniquement en anglais), notamment, est entraîné sur des conversations téléphoniques américaines de plus de 20 ans.

Que peut-on faire avec un générateur de voix par intelligence artificielle ?

Selon leurs fonctionnalités, les générateurs de voix par IA peuvent avoir une utilisation personnelle et/ou professionnel. Par exemple, Jammable est définitivement ludique alors qu’ElevenLabs peut être mis à profit plutôt en entreprise. Transformer un texte écrit en fichier audio, traduire un discours avec la même voix, créer une chanson inédite, réutiliser sa propre voix pour être plus productif… Les usages sont variés et les applications nombreuses.

Pour aller plus loin avec l’IA générative, notre équipe d’experts vous propose d’autres comparatifs de ce type de services :