Avec Voice Engine, OpenAI entre en force sur le marché des solutions text-to-voice qui reposent sur l'IA.
OpenAI ne s'arrête plus. Après la génération de texte, d'image et de vidéo, la société spécialisée en intelligence artificielle annonce avoir créé un modèle capable de générer et même d'imiter des voix.
Un outil text-to-voice
La plateforme, baptisée Voice Engine, requiert une invite sous forme de texte et un échantillon audio de seulement 15 secondes pour générer une voix naturelle qui se rapproche de très près de celle de l'orateur d'origine. OpenAI promet que son outil est capable de créer « des voix émouvantes et réalistes ».
L'entreprise indique avoir entamé le développement de Voice Engine à la fin de l'année 2022. Elle précise que le modèle alimente déjà les voix prédéfinies disponibles dans son API de synthèse vocale ainsi que ChatGPT Voice et Read Aloud.
Comme pour le générateur de vidéo Sora, OpenAI se montre prudente quant au déploiement de Voice Engine, « en raison du potentiel d'utilisation abusive de la voix synthétique ». La fonctionnalité n'est donc pas disponible auprès du grand public actuellement.
Pour la traduction et l'aide à la lecture
La société n'est d'ailleurs pas certaine aujourd'hui de lancer à terme une version accessible à tous, qu'elle soit gratuite ou payante. « Sur la base des conversations et des résultats des tests à petite échelle, nous prendrons une décision plus éclairée quant à l'opportunité et à la manière de déployer cette technologie à grande échelle », communique OpenAI.
Parmi les applications tirant parti de Voice Engine, OpenAI cite la possibilité de fournir une aide à la lecture aux non-lecteurs et aux enfants. La capacité du service à générer des voix naturelles et chargées d'émotions s'est montrée bien utile pour l'entreprise de technologie éducative Age of Learning, qui a eu recours à Voice Engine pour générer du contenu voix off préscénarisé.
Un autre aspect important pourrait être la traduction de contenus, notamment de vidéos et de podcasts, permettant aux entreprises et aux créateurs de toucher un public multilingue. OpenAI précise que Voice Engine préserve l'accent natif du locuteur d'origine lorsqu'il est utilisé pour la traduction. Générer une voix en anglais à partir de l'échantillon audio d'un locuteur français produit par exemple une voix anglaise avec un accent français.
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code
Source : OpenAI