La Chine dévoile SenseNova 5.5, son premier modèle d'IA multimodale en temps réel

La Chine aussi veut sa part de gâteau de l'IA, et c'est plutôt bien parti. © rongyiquan / Shutterstock

Les géants américains ne sont plus seuls dans le domaine de l'IA ; la Chine aussi s'est lancée dans la course. SenseTime, une entreprise chinoise fondée en 2014, leader locale du secteur, vient de lancer son modèle SenseNova 5.5 et ses performances sont plus qu'honorables.

L'Empire du Milieu n'est pas à la traîne dans la grande ruée vers l'IA. Le nombre de brevets que le pays a déposé pour l'intelligence générative dépasse même de loin celui des USA. Des entreprises comme Baidu, Megvii ou Yitu (spécialisées dans la reconnaissance faciale) développent des technologies d'IA et le gouvernement de Xi Jinping investit massivement dans le secteur. Objectif ? Dépasser les États-Unis et devenir le leader mondial de l'intelligence artificielle d'ici 2030.

SenseTime vient tout juste de dévoiler l'évolution de son modèle SenseNova 5.0, le premier modèle multimodal en temps réel chinois. Baptisé SenseNova 5.5, il est désormais capable d'interactions bien plus naturelles et fluides, à l'instar d'un certain ChatGPT-4o.

Un pas de géant pour la Chine

Ce modèle d'intelligence artificielle fait la fierté de ses créateurs. Le Dr Xu Li, à la tête de l'entreprise, a déclaré : « Cette année marque un tournant décisif pour les grands modèles, qui passent de l'unimodal au multimodal. Pour répondre aux attentes des utilisateurs, SenseTime met également l'accent sur l'amélioration de l'interactivité. Les applications conduisent le développement des modèles et de leurs capacités. Avec les avancées technologiques dans les interactions multimodales en temps réel, nous assisterons à des transformations inédites dans les interactions entre humains et IA ».

Pour rappel, un modèle d'IA unimodal traite une seule source de données (par exemple, uniquement du texte), tandis qu'un modèle multimodal peut intégrer et analyser plusieurs types de données simultanément (comme du texte, des images et des vidéos).

Le SenseNova 5.5, successeur du 5.0 lancé à peine deux mois auparavant, affiche des progrès fulgurants. Sa performance globale bondit de 30 %, avec des améliorations notables en logique mathématique, en maîtrise de l'anglais et en compréhension des instructions. Les résultats parlent d'eux mêmes : avec un score moyen de 69,9, il rivalise avec le GPT-4o-0513 et surclasse ses concurrents, tels que Claude 3.5-Sonnet et Gemini 1.5 Pro.

Comme vous pouvez le voir dans le benchmark ci-dessous, dans l'épreuve MMB v1.1, évaluant la compréhension multimodale, SenseNova atteint l'impressionnant score de 83.0. Pour l'AID2, mesurant l'efficacité en dialogue, il culmine à 86.9, dépassant ainsi de nombreux rivaux. Néanmoins, il demeure légèrement en retrait face au GPT-4o-0513 dans les tests de mémoire à court terme et de gestion des hallucinations.

...

Un modèle à faible coût et aux applications variées

Dans un élan visant à démocratiser l'intelligence artificielle de pointe, SenseTime parvient à proposer son modèle à un coût plutôt dérisoire pour chaque edge device (dispositifs informatiques situés à la périphérie du réseau, proches de l'endroit où les données sont générées). Ainsi, le tarif annuel par dispositif est fixé à un montant de 9,90 RMB (soit 1,36 dollars). Une initiative qui pourrait bien catalyser l'adoption massive de l'IA dans l'univers foisonnant de l'IoT (Internet des Objets).

Parallèlement, l'entreprise a dévoilé le « Project $ 0 Go », une offre alléchante destinée aux sociétés désireuses de quitter l'écosystème OpenAI. Ce programme octroie gracieusement un lot de 50 millions de tokens ainsi qu'un accompagnement expert pour la migration des API, aplanissant ainsi les obstacles à l'adoption de SenseNova.

L'innovation chez SenseTime ne se cantonne pas au perfectionnement de leurs modèles linguistiques. Leur dernière création, Vimi, est un générateur d'avatars vidéo. À partir d'un simple cliché, il produit de courts films en maîtrisant finement les expressions faciales et les mouvements du buste. La gamme SenseTime Raccoon s'est également enrichie d'outils de productivité intrinsèquement liés à l'IA. Le Code Raccoon (outil d'optimisation de code) affiche désormais une réactivité quintuplée et une précision de codage améliorée de 10 %. Quant à Office Raccoon (outil d'optimisation des tâches bureautiques), il étend sa portée via une interface web grand public et une miniapplication destinée à WeChat. SenseTime propose en réalité une véritable boîte à outils.

Les technologies proposées par SenseTime essaiment déjà dans de nombreux secteurs. Dans la finance, elles optimisent la réglementation des opérations, le marketing et l'analyse d'investissement. En agriculture, elles permettent une réduction de 20 % de l'utilisation des intrants tout en augmentant les rendements de 15 %. Le secteur touristique en bénéficie aussi. Planification des voyages plus efficaces, réservations de séjours plus rapides, etc.

Forte de plus de 3 000 clients institutionnels et corporatifs exploitant SenseNova dans des domaines aussi variés que la santé, la programmation, la tech ou la finance, SenseTime s'affirme déjà comme un acteur très solide de l'intelligence artificielle. Si le pays continue d'intensifier ses efforts dans le secteur de l'IA comme il l'a fait pour l'industrie automobile, la Silicon Valley a du souci à se faire.

Source : AI News