La récente annonce des modèles Zonos de la startup Zyphra vient de franchir un cap inquiétant dans le clonage vocal open-source. Avec seulement cinq secondes d’enregistrement, cette IA génère une copie presque parfaite de n’importe quelle voix, ouvrant la boîte de Pandore des deepfakes audio.

 Imaginez reproduire votre timbre vocal en moins de temps qu’un appel téléphonique. © Zyphra
Imaginez reproduire votre timbre vocal en moins de temps qu’un appel téléphonique. © Zyphra

Avec seulement 5 à 30 secondes d'enregistrement audio, Zonos, le dernier modèle open-source de Zyphra, est capable de cloner une voix de manière saisissante. Ce modèle de synthèse vocale (TTS) de pointe, disponible en version beta, illustre à la fois les progrès impressionnants de l'intelligence artificielle et les préoccupations éthiques qu'elle soulève.

Une prouesse technique accessible à tous

Zonos se décline en deux modèles de 1,6 milliard de paramètres : un modèle basé sur des transformers et un modèle hybride combinant transformers et architecture Mamba (SSM). Ces deux modèles sont publiés sous la licence permissive Apache 2.0, permettant aux développeurs et chercheurs d’y accéder librement via des plateformes comme Hugging Face et GitHub.

Entraînés sur un vaste corpus de 200 000 heures d’audio multilingue (anglais, chinois, japonais, français, espagnol et allemand), ces modèles peuvent générer une voix synthétique réaliste à partir d’un court échantillon audio. Les utilisateurs peuvent également ajuster divers paramètres tels que le débit de parole, la hauteur tonale ou encore l’émotion exprimée (joie, tristesse, colère). La sortie audio est produite en haute fidélité à 44 kHz.

Si vous ne souhaitez vous embêter avec un déploiement local, Zonos est accessible depuis le playground de Zyphra.  © Zyphra
Si vous ne souhaitez vous embêter avec un déploiement local, Zonos est accessible depuis le playground de Zyphra. © Zyphra

L'architecture optimisée du modèle hybride offre deux avantages : une latence minimale et une consommation de mémoire limitée. Sur une carte NVIDIA RTX 6000 Ada, Zonos affiche des performances remarquables. Sa latence oscille entre 200 et 300 millisecondes, avec un facteur temps réel dépassant 1.

L’urgence éthique derrière la prouesse technologique

L’installation locale du modèle est étonnamment simple : quelques commandes suffisent pour lancer une interface Gradio intuitive permettant d’importer un échantillon vocal et de générer du contenu audio personnalisé. Cette accessibilité soulève toutefois des inquiétudes quant aux usages malveillants possibles.

Lors des tests réalisés par The Register, un clip audio généré avec Zonos a trompé des proches pendant quelques secondes avant que des indices subtils (rythme mécanique ou intonation) ne trahissent la nature artificielle du fichier. Cependant, ces limitations techniques pourraient être rapidement surmontées dans les futures mises à jour. Les risques sont nombreux : usurpation d’identité pour des escroqueries téléphoniques, création de faux messages politiques ou encore sabotage professionnel via des deepfakes audio. En 2024 déjà, plusieurs cas d’arnaques vocales sophistiquées ont été signalés en Europe.

Malgré ces dangers potentiels, Zonos ouvre également la voie à des applications bénéfiques. Par exemple, cette technologie pourrait redonner une voix à des personnes ayant perdu l’usage de leurs cordes vocales ou simplifier la création de livres audio multilingues. Zyphra insiste sur le fait que son objectif est de contribuer à l’innovation dans les domaines de l’accessibilité et de la recherche open-source.

Cependant, les implications éthiques restent au cœur du débat. Alors que des entreprises comme ElevenLabs ou Apple explorent des usages similaires dans un cadre commercial ou médical contrôlé, l’aspect open-source de Zonos facilite sa diffusion rapide et incontrôlée. Il revient désormais aux régulateurs et aux utilisateurs d’encadrer cette technologie pour éviter qu’elle ne devienne une arme à double tranchant.

Source : The Register