Les chercheurs de Cisco ont mis à rude épreuve le modèle d'intelligence artificielle chinois DeepSeep R1. S'il est considéré comme l'un des plus prometteurs du marché, il livre des résultats de sécurité catastrophiques.

DeepSeek échoue aux tests de sécurité © Alexandre Boero / Clubic
DeepSeek échoue aux tests de sécurité © Alexandre Boero / Clubic

Perturbé par des cyberattaques malveillantes à répétition, le chatbot chinois DeepSeek ne rassure pas sur sa sécurité. Les équipes de Cisco ont publié une étude qui ne va pas arranger les affaires de DeepSeek R1, le modèle de raisonnement qui avait pourtant suscité l'enthousiasme pour ses performances.

Ce dernier, sur le papier capable de rivaliser avec les géants du secteur pour un coût de développement pourtant dérisoire (de 6 millions de dollars), présente en réalité des failles de sécurité majeures. De quoi mettre le doute aux nombreuses entreprises qui s'intéressaient de près à cette alternative économique ?

Le modèle DeepSeek R1 est totalement vulnérable aux attaques

L'étude dévoilée par l'équipe de recherche en sécurité IA de Cisco, menée en collaboration avec l'Université de Pennsylvanie, a suivi une méthodologie de test rigoureuse sur DeepSeek R1.

Les chercheurs ont en effet soumis le modèle à 50 tentatives d'attaques aléatoires issues du dataset HarmBench, un cadre qui teste la sécurité des intelligences artificielles en simulant des situations problématiques. Celui-ci a permis de couvrir différentes catégories de comportements malveillants comme la cybercriminalité, la désinformation et les activités illégales. Et les résultats sont sans appel !

DeepSeek R1 a échoué à bloquer la moindre tentative d'exploitation. Le modèle s'est montré incapable de résister aux techniques de jailbreaking algorithmique, ce qui a facilité la génération de contenus dangereux. Plus inquiétant encore, l'équipe a réussi à contourner les protections avec un budget inférieur à 50 dollars, en utilisant une méthodologie entièrement automatisée.

Cette vulnérabilité totale contraste fortement avec les autres modèles de premier plan, pourtant testés dans les mêmes conditions. Les modèles Claude 3.5 Sonnet ou GPT-4o ont démontré une capacité de résistance partielle aux attaques, avec des taux de blocage nettement supérieurs, notamment sur les tentatives d'intrusion et la désinformation.

Voilà les résultats de l'étude menée par Cisco © Cisco
Voilà les résultats de l'étude menée par Cisco © Cisco

Des économies qui coûtent cher en sécurité

L'approche économique de DeepSeek, qui repose sur l'apprentissage par renforcement et l'auto-évaluation par chaîne de pensée (chain-of-thought), a-t-elle au passage sacrifié les mécanismes de sécurité essentiels ?

La stratégie de développement à moindre coût de l'acteur de l'empire du Milieu, qui utilise notamment la distillation pour créer des modèles plus légers (1,5 à 70 milliards de paramètres) à partir d'un modèle plus large (671 milliards), semble en tout cas avoir atteint ses limites et ses dangers potentiels.

Pour les chercheurs, la course à l'innovation dans l'IA ne doit pas se faire au détriment de la sécurité. Les entreprises qui seraient tentées par des solutions économiques doivent prendre conscience des risques associés, particulièrement dans un contexte où les modèles de raisonnement deviennent de plus en plus sophistiqués.

Le cas DeepSeek R1 témoigne peut-être de l'importance cruciale d'intégrer des garde-fous robustes dans le développement des modèles d'IA. Cisco recommande notamment l'utilisation de solutions de protection tierces pour sécuriser efficacement ces technologies, une préconisation qui prend tout son sens face à ces résultats alarmants qui montrent une vulnérabilité totale sur l'ensemble des six catégories de comportements dangereux testés.