Qui arrêtera ElevenLabs ? Après avoir complètement transfiguré la synthèse vocale grâce à l'IA, l'entreprise se lance désormais dans la génération d'effets sonores pour le cinéma et les jeux vidéo.
La start-up est déjà en avance sur tous ses concurrents en matière de synthèse vocale. Elle est au son ce qu'est OpenAI (qui vient de faire passer son chatbot en version omni) ou Anthropic (Claude 3) au texte et propose déjà des modèles d'IA surpuissants pour imiter les voix. Aujourd'hui, elle s'attaque à un tout nouveau domaine à l'aide d'un nouvel outil IA surpuissant capable de générer des effets sonores à loisir, juste à partir de texte.
Une nouvelle frontière pour ElevenLabs
Ce nouvel outil est sobrement baptisé « Text to Sound Effects » et il permet de créer une vaste palette d'effets, de pistes instrumentales courtes, d'ambiances sonores et de voix de personnages à partir de simples entrées textuelles. Conçu pour les créateurs de contenus audiovisuels, qu'ils œuvrent dans l'industrie cinématographique, le jeu vidéo ou sur les réseaux sociaux, cet outil vise à faciliter la production, donc de faire des économies de temps et d'argent pour les concernés.
Pour rendre possible cette avancée, ElevenLabs s'est associée à Shutterstock, plateforme très connue pour ses images, mais qui propose également du contenu audio. C'est grâce à l'immense répertoire de cette dernière qu'ElevenLabs a pu affiner son modèle d'IA.
Aimee Egan, Directrice générale de Shutterstock a déclaré : « Nous sommes ravis de collaborer avec ElevenLabs pour propulser une nouvelle innovation majeure dans le domaine de l'IA, le Text to Sound Effects, en utilisant nos données obtenues de manière éthique. La combinaison de notre bibliothèque riche et immersive de pistes audio avec cette technologie de pointe a permis de créer une véritable première sur le marché. Nous sommes enthousiasmés par les retours positifs de la communauté ayant eu un accès anticipé et nous avons hâte de voir la diversité des projets qu'ils vont réaliser ».
Un outil flexible et abordable
Avec les indications fournies par l'utilisateur, leur nouvel outil peut générer jusqu'à 22 secondes de bande sonore et offre au minimum quatre options de clips audio téléchargeables. Bien que l'utilisation de l'outil soit gratuite, les utilisateurs optant pour un abonnement payant bénéficient de licences commerciales pour les clips générés, tandis que les utilisateurs gratuits se doivent d'attribuer la paternité à ElevenLabs en incluant « elevenlabs.io » dans l'intitulé de leur production.
Les utilisateurs disposent d'un quota de caractères alloué pour la rédaction des indications. Les usagers l'utilisant gratuitement bénéficient de 10 000 caractères par mois. Concernant les effets sonores, chaque seconde d'audio générée consomme 40 caractères du quota alloué, soit 200 caractères pour la durée par défaut de chaque demande de clip audio.
Imaginions que vous vouliez créer des pistes sonores de 10 secondes sans payer l'abonnement, vous pouvez en générer 25 par mois. Pour l'essayer, vous pouvez vous rendre sur le site officiel d'ElevenLabs dédié à Text to Sound Effects.
- Réalisme des voix
- Gestion de l'intonation et des émotions
- Nombreuses langues supportées
Sources : The Verge, Eleven Labs