Anthropic propose 15 000 dollars, soit environ 14 486 euros, à qui réussira à contourner les protections de Claude AI. L'entreprise invite les hackers à essayer de faire répondre Claude à 10 questions interdites pour tester son nouveau système de sécurité.

Saurez-vous hacker Claude AI ? © gguy / Shutterstock
Saurez-vous hacker Claude AI ? © gguy / Shutterstock

Pour renforcer son IA Claude, Anthropic a mis au point une technologie appelée « classificateurs constitutionnels » pour identifier et bloquer les requêtes potentiellement dangereuses, sans entraver les interactions normales. Ces classeurs doivent permettre à l'entreprise d'améliorer la sécurité des systèmes d'IA et à prévenir leur utilisation malveillante.

Et pour ajouter une couche de sécurité supplémentaire, Anthropic a choisi de vous mettre en défi. Mais il pourrait être contre-intuitif a priori. Il s'agit d'évaluer la résistance de Claude aux tentatives de jailbreak. Une récompense de 15 000 dollars attend celui qui parviendra à déjouer ces mécanismes de protection.

Une nouvelle approche pour contrer les jailbreaks

Ce dispositif prend appui sur l'IA constitutionnelle d'Anthropic, soit un ensemble de règles qui orientent le comportement de Claude. Les classificateurs établissent des catégories de contenus auxquels l'IA peut répondre, ce qui lui permet de différencier les demandes inoffensives de celles potentiellement nuisibles.

Pour créer ce système, Anthropic a utilisé Claude afin de générer un large éventail de requêtes synthétiques dans diverses langues et styles, y compris des tentatives connues de jailbreak. D'abord, création de « règles constitutionnelles » définissant précisément le contenu autorisé. Ensuite, génération de 10 000 invites de test, couvrant les attaques les plus sophistiquées connues contre les modèles de langage.

Ces données ont servi à entraîner l'IA à repérer les requêtes problématiques. Les tests internes effectués sur Claude 3.5 Sonnet en octobre 2024 ont montré des résultats prometteurs : le modèle a bloqué 95 % des tentatives de jailbreak tout en ne rejetant que 0,38 % de messages inoffensifs supplémentaires par rapport à une version non protégée.

Répondez aux 10 questions du défi de hacking de Claude, imaginé par Anthropic © Tada Images / Shutterstock
Répondez aux 10 questions du défi de hacking de Claude, imaginé par Anthropic © Tada Images / Shutterstock

Un appel aux experts pour renforcer la sécurité

Anthropic invite maintenant les hackers et chercheurs en sécurité à mettre à l'épreuve les défenses de Claude. Ce défi public permettra de dénicher d'éventuelles failles et d'améliorer constamment la sécurité du système. Les participants doivent tenter de faire répondre Claude à 10 questions interdites pour gagner la prime de 15 000 dollars, soit pas loin de 14 500 euros.

Avec cette démarche d'implication d'experts externes, Anthropic entend anticiper et prévenir de nouvelles techniques de jailbreak qui pourraient apparaître. Les résultats de ce défi aideront Anthropic à perfectionner ses protections et pourraient inspirer d'autres acteurs du secteur à adopter des approches similaires pour sécuriser leurs propres modèles d'IA. En gros, les utilisateurs d'IA tireraient les IA vers le haut.

En revanche, le défi s'annonce ardu. Lors des tests internes, plus de 180 chercheurs ont passé plus de 3 000 heures à tenter de percer les défenses du système, sans succès probant.

Si vous souhaitez relever le défi, le site BGR fournit le lien vers le questionnaire. Réussirez-vous là où ils ont échoué ?

Source : BGR