Microsoft a annoncé le déploiement d'Azure AI Speech, un outil qui repose sur l'intelligence artificielle capable de reproduire la voix de n'importe qui à l'aide d'un simple échantillon. Les usages sont nombreux, et les possibles dérives aussi…
Capitalisant sur son investissement massif dans OpenAI, la firme de Redmond s'impose aujourd'hui comme l'un des leaders de l'IA. Elle déploie la technologie dans l'ensemble de ses produits phares et étoffe son offre cloud avec des outils qui s'appuient sur celle-ci.
Sa stratégie est payante, puisque Microsoft trône désormais en première place des entreprises les plus valorisées au monde, dépassant même Apple. Avec Azure AI Speech, la société montre toute l'étendue des possibilités offertes par l'IA.
30 décembre 2024 à 11h18
De nombreux usages possibles
Initialement présenté en 2023, l'outil permet aux utilisateurs de créer et d'utiliser leur propre voix d'IA dans les applications créées par les clients de Microsoft. Concrètement, si un logiciel que vous utilisez collabore avec la société pour exploiter Azure AI Speech, vous serez alors en mesure de synthétiser votre voix dans celui-ci.
Cette fonctionnalité ouvre la voie à de très nombreux usages. Microsoft a d'ailleurs élaboré de premiers partenariats permettant de démontrer les capacités de son modèle. Avec Truecaller, une application américaine qui identifie et bloque les appels indésirables, l'IA répond aux appels qui sont potentiellement des spams. Avec la voix de l'utilisateur, elle interroge l'interlocuteur afin de déterminer s'il s'agit bel et bien d'une conversation indésirable.
L'outil a également été déployé dans Skype, cette fois à des fins de traduction instantanée et en temps réel. Si l'on discute avec une personne qui ne parle pas notre langue, l'IA traduira automatiquement les propos dans la langue de l'interlocuteur, en reproduisant la voix à l'identique.
Wondershare, une société qui propose une application dédiée à la créativité, a aussi intégré l'outil. Ses utilisateurs peuvent l'exploiter pour reproduire leur voix dans plusieurs langues, ou commenter des vidéos.
Une technologie dangereuse, et Microsoft le sait
Microsoft propose de tester l'outil, mais il faut avant tout disposer d'un compte Azure avec une ressource Speech ou Cognitive Services. « Tous les clients doivent accepter nos politiques d'utilisation, qui exigent notamment le consentement explicite du locuteur d'origine, la divulgation de la nature synthétique du contenu créé et l'interdiction d'usurper l'identité d'une personne ou de tromper les personnes utilisant le service de voix personnelle », détaille la société, visiblement consciente du danger potentiel que représente un tel système.
Au mois d'avril, Microsoft présentait une autre IA, similaire, permettant de transformer la photo de quelqu'un en vidéo. Si ce type de dispositifs peut s'avérer utile dans de nombreux domaines, ils sont aussi très inquiétants, alors que les experts alertent sur une recrudescence de deepfakes de plus en plus réalistes.
- Intégration de DALL-E 3 pour une création d'images plus créatives et réalistes
- Capacité de traitement des images par GPT-4 Vision pour des réponses contextuelles précises
- Interface conviviale et intégrée dans divers produits Microsoft
Source : Microsoft