Kyutai franchit une nouvelle étape dans le domaine de l'intelligence artificielle vocale en dévoilant MoshiVis, une extension innovante de son modèle Moshi. Cette avancée permet à l'IA de comprendre et de commenter des images, enrichissant ainsi les interactions homme-machine.

Le laboratoire Kyutai, cofondé par Xavier Niel et soutenu par Iliad, continue de faire parler de lui dans le domaine de l’intelligence artificielle. Après avoir dévoilé Moshi, son IA vocale capable d’interagir avec une fluidité impressionnante, Kyutai présente aujourd’hui une évolution majeure de cette technologie : MoshiVis. Ce nouveau modèle ajoute une couche de compréhension visuelle aux capacités vocales existantes.

- Réactivité
- Fonctionnalité locale
- Analyse vocale
Une intelligence vocale qui comprend les images
MoshiVis repose sur un socle technologique robuste, combinant l’encodeur visuel PaliGemma2-3B-448 et les modèles de langage Mistral Nemo. Grâce à des modules d’attention croisée, les données issues des images sont intégrées au flux conversationnel, permettant à l’assistant d’interpréter ce qu’il « voit » et d’en discuter avec l’utilisateur. La réponse générée est ensuite synthétisée vocalement, toujours avec un temps de latence réduit.
Le système fonctionne sur la base d’un pipeline de dialogues synthétiques, générés à partir d’un vaste ensemble d’images et de descriptions, permettant à l’IA de se familiariser avec des contextes variés. MoshiVis est ainsi capable de commenter une photographie, de répondre à des questions sur son contenu ou encore de proposer des informations complémentaires, le tout dans une interaction fluide et naturelle.
Une approche open source optimisée pour l'efficacité
L'un des atouts de MoshiVis réside dans sa capacité à limiter les besoins en données vocales pour son apprentissage. Au lieu d’exiger des enregistrements audio, Kyutai a mis en place un système de « monologue intérieur » textuel, simulant des dialogues internes qui permettent à l’IA de se former de manière plus économique. Cette approche permet une montée en compétence rapide, tout en réduisant les ressources nécessaires.
Les premiers résultats sont prometteurs. Sur des benchmarks de référence comme OCR-VQA, VQAv2 ou COCO, MoshiVis atteint des scores comparables à ceux de modèles experts en vision. L’attention croisée est également mise en cache pendant l’inférence, ce qui améliore encore les performances en réduisant la charge de calcul.
MoshiVis est accessible dès à présent en ligne, gratuitement, via une plateforme dédiée. L’expérimentation nécessite uniquement de fournir une adresse e-mail pour recevoir un lien d’accès. Pour le moment, l’interaction avec l’IA se fait exclusivement en anglais, mais Kyutai laisse entendre que d’autres langues pourraient être prises en charge à l’avenir. Une initiative qui confirme l’ambition du laboratoire de faire émerger une alternative européenne solide dans le domaine de l’IA conversationnelle multimodale.
Source : Univers Freebox
04 février 2025 à 14h11