Kyutai, la nouvelle pépite de Xavier Niel, lance Moshi : “la toute première IA douée de parole accessible à tous”

Par Nicolas Guyot, Rédacteur en chef.

Publié le 03 juillet 2024 à 19h34

Moshi répond naturellement à vos questions, mais pour l'instant en anglais. © Clubic

Le laboratoire de recherche européen fondé il y a 6 mois par Xavier Niel vient de réaliser un petit exploit en un temps record et avec une équipe de seulement 8 chercheurs : la mise au point d’un prototype d’assistant vocal basé sur une IA au doux nom de Moshi. Présentation rapide.

Moshi, moshi !* Au côté des ChatGPT, Gemini, Claude, Mistral et consorts, il va falloir maintenant compter sur Moshi. Le premier modèle d’intelligence artificielle de Kyutai, le laboratoire de recherche financé par Xavier Niel (Free) et Eric Schmidt (ex-PDG de Google), a en effet fait une apparition en public remarquée ce mercredi 3 juillet.

Pas besoin de prompter, tout se fait à la voix

Pour l’instant au stade de prototype expérimental, cette IA vocale peut répondre aux questions de son interlocuteur de façon naturelle, fluide et en toute réactivité. Ici, la grosse innovation est de ne pas avoir à écrire ses questions dans un champ dédié à cet effet ou, encore, à passer par une étape intermédiaire qui consiste à traduire les commandes vocales en prompt. Tout s’effectue de façon assez fluide avec une latence très faible (160 ms), proche de celle d’un échange entre humains.

La force de l'IA de Kyutai ? Le temps de latence record (160 ms) entre vos questions et ses réponses. © Clubic

Moshi serait même capable de reconnaître les émotions de son interlocuteur et de jouer sur sa voix pour rendre plus naturelle la conversation, et ainsi améliorer un peu plus les interactions homme-machine. Vous pourrez d’ailleurs l’essayer dès ce soir sur le site de Kyutai pour vous faire un premier avis. Petite précision, mais de taille pour les moins anglophones d’entre-vous, Moshi ne parle pour l’instant que l’anglais.

Une IA qui fonctionnera aussi en local

L’IA pipelette de Xavier Niel serait par ailleurs suffisamment légère pour être exécutée localement sur un ordinateur ou un smartphone sans avoir besoin d'accéder à Internet, un gage de sécurité non négligeable pour nos données personnelles. Au moment d’écrire cet article, nous ne savons pas exactement quels sont les prérequis techniques pour pouvoir faire fonctionner localement ce modèle, si un Neural Processing Unit (NPU) sera nécessaire au sein du processeur de nos appareils et avec quelle puissance minimale requise (en TOPS).

Dotées de plusieurs dizaines d’intonations, les capacités de synthèse vocale de Moshi semblent assez exceptionnelles si on se fie aux démonstrations réservées aujourd'hui à un parterre de chercheurs, développeurs, entrepreneurs, investisseurs et journalistes. Pour finir, le modèle aurait été entraîné à partir de conversations téléphoniques enregistrées aux États-Unis de 1994 à 2002. Le code et le poids des différents modèles de Moshi devraient bientôt être partagés librement par Kyutai. Plus d’informations dans les heures qui viennent.

*Bonjour en japonais.

30 décembre 2024 à 11h18

Comparatifs services

Par Nicolas Guyot

Rédacteur en chef

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (10)

Pernel

Si je ne dis pas de bêtise (mes bases en Japonais sont limités), mais c’est « moshi moshi » qui veut dire « bonjour » pas juste « moshi ».

Nicolas_Guyot

Merci, je vais rectifier !

Kratof_Muller

Merci pour cet article

https://www.moshi.chat/

vous avez intérêt d avoir un bon micro et un environnement silencieux, parfois on a l impression que la réponse a un vieux jet lag.

Ça doit être basé sur Whisper

Blade_Hunter

Presque… Moshi moshi est plutôt utilisé pour répondre au téléphone… Allò quoi

Pernel

Ah oui, bien vu ^^

darkkanga

Bonjour,

Si comme il l’est écrit dans le communiqué de presse l’IA a été développée from scratch en 8 mois et sans utilisation de prompt ou tts/stt c’est assez impressionnant. Après Xavier Niel est très bon communiquant (comme un autre milliardaire américain), il faudra voir le détail. Des briques open sources ont peut etr été utilisées.

tfpsly

Non pas vraiment : Moshi signifie littéralement « je parle ». @Nicolas_Guyot
Why Moshi Moshi Doesn’t Actually Mean Hello - Busuu Blog

Moshi moshi, or もしもし, is a common Japanese phrase that Japanese people use when picking up the phone. It’s a casual greeting used for friends and family, like a “hello”, but in fact means something entirely different! In English, it literally means something more like, “to say to say”, or “I speak I speak”.

CallMeLeDuc

Pour être tout à fait correct.
« Moshi moshi » ne veut pas dire « bonjour » mais se traduit plutôt par « Allo » lors d’un appel téléphonique.

Pernel

tfpsly

Oui « moshi moshi » équivaut à notre « allo » (mais se traduirait "Je vais parler”.
Mais « moshi » tout court est une déformation de « mousu (申す/もうす) » = « parler », et c’est probablement la vraie signification choisie pour ce nom d’une "IA douée de parole accessible à tous”