Meta dans l'embarras avec Prompt Guard, le bouclier de Llama 3.1 © kovop / Shutterstock
Meta dans l'embarras avec Prompt Guard, le bouclier de Llama 3.1 © kovop / Shutterstock

Une semaine après le lancement de Prompt Guard, le nouvel outil de sécurité de Meta pour son IA Llama 3.1, des chercheurs ont découvert une faille. En espaçant simplement les caractères et en supprimant la ponctuation, il est possible de contourner totalement les protections mises en place par Meta contre les attaques par injection d'invite.

L'intelligence artificielle de Meta vient de subir un revers inattendu. En 6 petits jours à peine, après le lancement de Prompt Guard, l'outil de sécurité conçu pour Llama 3.1, des chercheurs ont déjà trouvé comment le contourner. Leur technique est d'une simplicité déconcertante : il suffit d'espacer les caractères et de supprimer la ponctuation pour que les protections s'effondrent.

Ce jailbreak express contraste fortement avec les ambitions affichées par Meta. L'entreprise de Mark Zuckerberg visait à établir une nouvelle norme de sécurité pour l'IA open source. Elle promettait un bouclier robuste contre les attaques par injection d'invite, ces tentatives de manipulation des modèles de langage. La rapidité avec laquelle Prompt Guard a été mis en échec surprend et a de quoi remettre en question l'efficacité des approches actuelles en matière de sécurité de l'IA.

23 juillet 2024 : Meta sort l'artillerie lourde pour sécuriser son IA

Le 23 juillet, Meta sort le grand jeu. L'entreprise de Mark Zuckerberg annonce la sortie de Prompt Guard, un nouvel outil de sécurité pour son IA Llama 3.1. L'objectif ? Parer les attaques par injection d'invite, un casse-tête pour les développeurs d'IA. Ces attaques consistent à glisser des instructions malicieuses dans les requêtes pour faire dérailler le modèle.

Prompt Guard se présente comme un rempart solide. Il est capable de détecter et de bloquer les tentatives d'injection et de jailbreak. Meta ne lésine pas sur les moyens : l'outil a été entraîné sur un large éventail de données. Il peut même repérer les attaques dans huit langues différentes.

Pour Meta, c'est un pas de géant vers une IA plus sûre. L'entreprise mise gros sur cet outil. Elle le présente comme une solution clé en main pour les développeurs qui veulent sécuriser leurs applications fondées sur Llama 3.1. Meta vante sa facilité d'utilisation et son efficacité. L'outil promet de déjouer les tentatives les plus sournoises de détournement de l'IA.

29 juillet 2024 : Prompt Guard mis à nu par des chercheurs

La douche froide arrive le 29 juillet. Des chercheurs en cybersécurité de Robust Intelligence ont fait une découverte qui a fait l'effet d'une bombe : Prompt Guard n'est pas si robuste que ça. Ils ont trouvé un moyen simple de le contourner, et la technique est aussi simple que déroutante : espacer les caractères et supprimer la ponctuation dans les requêtes.

Cette méthode rudimentaire suffit à tromper Prompt Guard. L'outil ne détecte plus les tentatives d'injection ou de jailbreak. Les chercheurs ont testé leur trouvaille sur 450 requêtes malveillantes. Le résultat est sans appel : 99,8 % d'entre elles ont réussi à passer entre les mailles du filet.

Comment ont-ils déniché cette faille ? En comparant les poids d'intégration de Prompt Guard avec ceux d'un modèle de base, ils ont remarqué que le processus d'affinage n'avait presque pas modifié le traitement des caractères simples. Une aubaine pour les attaquants potentiels.

La faille de Prompt Guard, censé protéger Llama des invites malveillantes, présente un trou dans la raquette © gguy / Shutterstock

Cette découverte met Meta dans l'embarras, elle montre que même les outils de sécurité les plus récents peuvent avoir des failles béantes. Pour les experts, c'est un rappel brutal : la course entre attaquants et défenseurs dans le domaine de l'IA est loin d'être terminée. Le récent rapport de la société Eviden le prédit, pour 2024 qui n'est pas encore terminée, les attaques fondées sur l'IA se diversifieront, exploitant des techniques automatisées comme les deepfakes pour usurper des identités, les attaques antagonistes pour tromper les modèles de sécurité, et les robots autonomes pour mener des reconnaissances et propagations sans intervention humaine.

À l'heure où nous écrivons ces lignes, Meta n'a pas publié de communiqué ni appliqué de rustine sur la faille.

  • 3 modèles dont un de 400 milliard de paramètres
  • Libre
  • Peut tourner en local sur les machines bien équipées