Moshi répond naturellement à vos questions, mais pour l'instant en anglais. © Clubic
Moshi répond naturellement à vos questions, mais pour l'instant en anglais. © Clubic

Le laboratoire de recherche européen fondé il y a 6 mois par Xavier Niel vient de réaliser un petit exploit en un temps record et avec une équipe de seulement 8 chercheurs : la mise au point d’un prototype d’assistant vocal basé sur une IA au doux nom de Moshi. Présentation rapide.

Moshi, moshi !* Au côté des ChatGPT, Gemini, Claude, Mistral et consorts, il va falloir maintenant compter sur Moshi. Le premier modèle d’intelligence artificielle de Kyutai, le laboratoire de recherche financé par Xavier Niel (Free) et Eric Schmidt (ex-PDG de Google), a en effet fait une apparition en public remarquée ce mercredi 3 juillet.

Pas besoin de prompter, tout se fait à la voix

Pour l’instant au stade de prototype expérimental, cette IA vocale peut répondre aux questions de son interlocuteur de façon naturelle, fluide et en toute réactivité. Ici, la grosse innovation est de ne pas avoir à écrire ses questions dans un champ dédié à cet effet ou, encore, à passer par une étape intermédiaire qui consiste à traduire les commandes vocales en prompt. Tout s’effectue de façon assez fluide avec une latence très faible (160 ms), proche de celle d’un échange entre humains.

La force de l'IA de Kyutai ? Le temps de latence record (160 ms) entre vos questions et ses réponses. © Clubic
La force de l'IA de Kyutai ? Le temps de latence record (160 ms) entre vos questions et ses réponses. © Clubic

Moshi serait même capable de reconnaître les émotions de son interlocuteur et de jouer sur sa voix pour rendre plus naturelle la conversation, et ainsi améliorer un peu plus les interactions homme-machine. Vous pourrez d’ailleurs l’essayer dès ce soir sur le site de Kyutai pour vous faire un premier avis. Petite précision, mais de taille pour les moins anglophones d’entre-vous, Moshi ne parle pour l’instant que l’anglais.

Une IA qui fonctionnera aussi en local

L’IA pipelette de Xavier Niel serait par ailleurs suffisamment légère pour être exécutée localement sur un ordinateur ou un smartphone sans avoir besoin d'accéder à Internet, un gage de sécurité non négligeable pour nos données personnelles. Au moment d’écrire cet article, nous ne savons pas exactement quels sont les prérequis techniques pour pouvoir faire fonctionner localement ce modèle, si un Neural Processing Unit (NPU) sera nécessaire au sein du processeur de nos appareils et avec quelle puissance minimale requise (en TOPS).

Dotées de plusieurs dizaines d’intonations, les capacités de synthèse vocale de Moshi semblent assez exceptionnelles si on se fie aux démonstrations réservées aujourd'hui à un parterre de chercheurs, développeurs, entrepreneurs, investisseurs et journalistes. Pour finir, le modèle aurait été entraîné à partir de conversations téléphoniques enregistrées aux États-Unis de 1994 à 2002. Le code et le poids des différents modèles de Moshi devraient bientôt être partagés librement par Kyutai. Plus d’informations dans les heures qui viennent.

*Bonjour en japonais.

A lire aussi
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2024

10 novembre 2024 à 19h08

Comparatifs services