Comment Microsoft veut synthétiser votre voix

Publié le 24 mai 2024 à 11h29

Microsoft exploite l'IA pour synthétiser les voix © KAMAZON STUDIO / Shutterstock

Microsoft a annoncé le déploiement d'Azure AI Speech, un outil qui repose sur l'intelligence artificielle capable de reproduire la voix de n'importe qui à l'aide d'un simple échantillon. Les usages sont nombreux, et les possibles dérives aussi…

Capitalisant sur son investissement massif dans OpenAI, la firme de Redmond s'impose aujourd'hui comme l'un des leaders de l'IA. Elle déploie la technologie dans l'ensemble de ses produits phares et étoffe son offre cloud avec des outils qui s'appuient sur celle-ci.

Sa stratégie est payante, puisque Microsoft trône désormais en première place des entreprises les plus valorisées au monde, dépassant même Apple. Avec Azure AI Speech, la société montre toute l'étendue des possibilités offertes par l'IA.

A découvrir

Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025

30 décembre 2024 à 11h18

Comparatifs services

De nombreux usages possibles

Initialement présenté en 2023, l'outil permet aux utilisateurs de créer et d'utiliser leur propre voix d'IA dans les applications créées par les clients de Microsoft. Concrètement, si un logiciel que vous utilisez collabore avec la société pour exploiter Azure AI Speech, vous serez alors en mesure de synthétiser votre voix dans celui-ci.

Cette fonctionnalité ouvre la voie à de très nombreux usages. Microsoft a d'ailleurs élaboré de premiers partenariats permettant de démontrer les capacités de son modèle. Avec Truecaller, une application américaine qui identifie et bloque les appels indésirables, l'IA répond aux appels qui sont potentiellement des spams. Avec la voix de l'utilisateur, elle interroge l'interlocuteur afin de déterminer s'il s'agit bel et bien d'une conversation indésirable.

L'outil a également été déployé dans Skype, cette fois à des fins de traduction instantanée et en temps réel. Si l'on discute avec une personne qui ne parle pas notre langue, l'IA traduira automatiquement les propos dans la langue de l'interlocuteur, en reproduisant la voix à l'identique.

Wondershare, une société qui propose une application dédiée à la créativité, a aussi intégré l'outil. Ses utilisateurs peuvent l'exploiter pour reproduire leur voix dans plusieurs langues, ou commenter des vidéos.

Une technologie dangereuse, et Microsoft le sait

Microsoft propose de tester l'outil, mais il faut avant tout disposer d'un compte Azure avec une ressource Speech ou Cognitive Services. « Tous les clients doivent accepter nos politiques d'utilisation, qui exigent notamment le consentement explicite du locuteur d'origine, la divulgation de la nature synthétique du contenu créé et l'interdiction d'usurper l'identité d'une personne ou de tromper les personnes utilisant le service de voix personnelle », détaille la société, visiblement consciente du danger potentiel que représente un tel système.

Au mois d'avril, Microsoft présentait une autre IA, similaire, permettant de transformer la photo de quelqu'un en vidéo. Si ce type de dispositifs peut s'avérer utile dans de nombreux domaines, ils sont aussi très inquiétants, alors que les experts alertent sur une recrudescence de deepfakes de plus en plus réalistes.

Microsoft Copilot

Intégration de DALL-E 3 pour une création d'images plus créatives et réalistes
Capacité de traitement des images par GPT-4 Vision pour des réponses contextuelles précises
Interface conviviale et intégrée dans divers produits Microsoft

Télécharger

Source : Microsoft

Par Mathilde Rochefort

Microsoft

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (4)

ovancantfort

Tous les clients doivent accepter nos politiques d’utilisation, qui exigent notamment le consentement explicite du locuteur d’origine

Ouf, me voilà rassuré! Avec des mesures aussi fortes, les mauvais acteurs n’ont aucune chance d’abuser de ce système. Après tout, qu’est-ce qui pourrait mal se passer ?

merotic

Je suis pour l’IA si elle peut remplacer tous ceux qui sont en faveur de l’IA

Et puis si ça peut donner l’impression que le locuteur est plus intelligent qu’il ne le paraît je dis oui. On retrouvera peut-être enfin des discussions avec de la logique et non de l’idéologie.

Bon, ça fait peur car le piratage d’une voix aura des conséquences terribles comme le chantage sur les photos.

youmetooandyou

j’ai enregistré la voix de mon chef quand il m’a engueulé.
Ensuite j’utilise MS AI Speech avec la voix de mon chef « tu as très bien travaillé, je vais t’augmenter » et je fais tourner en boucle chez moi le soir pour m’endormir.
Enfin j’ai été convoqué au bureau de mon chef parce qu’étant admin Microsoft Azure il a récupéré les usages de MS AI Speech et a vu qu’une phrase tournait en boucle et quelle voix était utilisée.

bizbiz

Reproduire la voix est une chose mais quid de l’accent qui va avec, notamment pour les méridionaux comme moi ou pour Patrick Bosso ? Cette IA est fournie avec les cigales ?