Pourquoi utiliser Amazon Polly ?
Lancé en 2016 par Amazon Web Services, la filiale de cloud computing d'Amazon, Amazon Polly est un logiciel de synthèse vocale boosté à l'IA. Cet outil hébergé dans le cloud peut convertir n'importe quel texte en discours. Amazon Polly met à disposition de nombreuses voix, et ce, dans une trentaine de langues (avec certains dialectes possibles pour l'anglais, le français ou encore l'espagnol).
Amazon Polly convient à de nombreux usages : commerce, éducation, marketing, création d'applications à commande vocale, et bien d'autres.
Text-to-Speech
Se basant sur le deep learning, le service Amazon Polly peut être utilisé pour faire de la synthèse vocale. Ce logiciel inclut un vaste choix de voix naturelles et réalistes, et ce, dans plus de 30 langues et dialectes :
- Voix standards.
- Voix neuronales.
- Voix génératives.
- Voix conçues pour les longs formats.
Une fois le discours généré, il est possible de le télécharger au format MP3, PCM ou OGG.
Paramétrage de la voix
Prenant en charge le langage de balisage SSML (Speech Synthesis Markup Language), Amazon Polly offre de nombreuses possibilités de personnalisation vocale, et ce, afin de rendre le discours le plus réaliste possible. Il est notamment possible d'ajuster le débit, la hauteur ou encore l'intensité de la voix choisie selon ses besoins.
Amazon Polly peut également modifier le style vocal : ce logiciel inclut notamment des styles rédactionnels semblables aux voix des présentateurs de journaux télévisés.
Synchronisation et ajustement de discours
Le logiciel Amazon Polly permet aux utilisateurs d'ajuster le débit vocal an fonction de la durée du discours : il est, en effet, possible d'indiquer une durée à ne pas dépasser au sein des paramètres de l'outil. On peut aussi, en ajoutant des informations à un flux de métadonnées, faire en sorte que le discours se synchronise avec des éléments visuels : l'utilisateur peut, ainsi, utiliser Amazon Polly pour caler une voix sur des mouvements de lèvres ou bien sur des mots surlignés.
Comment utiliser Amazon Polly ?
Un outil de synthèse vocale freemium
Il est possible d'employer gratuitement le logiciel Amazon Polly pour une durée de 12 mois. L'offre inclut notamment, à partir de la première demande de discours :
- La possibilité d'utiliser les voix standards à hauteur de 5 millions de caractères par mois.
- La possibilité d'utiliser les voix neuronales à hauteur de 1 million de caractères par mois.
- La possibilité d'utiliser les voix dédiées aux longs formats à hauteur de 500 000 caractères par mois.
- La possibilité d'utiliser les voix génératives à hauteur de 100 000 de caractères par mois.
Au delà, il est nécessaire de passer en mode payant. Amazon Web Services facture chaque mois à l'utilisateur le nombre de caractères exact qu'il a demandés. Un calculateur est disponible sur le site officiel pour estimer les coûts engendrés.
Un service à utiliser sur le web
Le logiciel de synthèse vocale Amazon Polly est disponible sur internet, via un navigateur web et sous la forme d'une API. Une extension Wordpress était également disponible il y a peu. On ne trouve pas, pour l'heure, d'application mobile pour cet outil, que ce soit en version iOS ou Android.
Pour accéder à ce programme, il est nécessaire de se connecter avec un compte Amazon Web Services. S'il n'en possède pas, l'utilisateur sera invité à en créer un avec son adresse email. Cette dernière sera utilisée principalement à des fins administratives ou en tant que mail de récupération.
Quelles sont les alternatives à Amazon Polly ?
Amazon Polly permet à ses utilisateurs de créer des voix à partir d'un texte. Il existe aujourd'hui de nombreux outils de synthèse vocale. Si vous recherchez des services similaires à Amazon Polly, voici quelques applications qui sont, à notre avis, d'excellentes alternatives à ce logiciel :
- Resemble AI : utilisant, elle aussi, la puissance de l'intelligence artificielle, cette plateforme en ligne peut faire de la synthèse vocale, du clonage de voix et de la détection de deepfakes. Elle inclut un grand nombre de voix, dans plus de 150 langues.
- ElevenLabs : cette application freemium fait partie des leaders du domaine. Disponible sur le web, elle permet de faire du Text-to-Speech et dispose de plus de 1000 voix réalistes et de qualité. Il est également possible de cloner sa propre voix.
- Genny by Lovo : simple d'utilisation, cet outil en ligne propose à ses utilisateurs de nombreuses fonctionnalités pour faire de la synthèse vocale mais aussi du montage audio et vidéo. Il est aussi capable de générer des images ou des effets sonores. Genny By Lovo est disponible en version freemium.