Skeleton Key, ce jailbreak qui génère du contenu pas très catholique © 1st footage / Shutterstock
Skeleton Key, ce jailbreak qui génère du contenu pas très catholique © 1st footage / Shutterstock

Les chatbots d'IA ont beau être bardés de garde-fous, une simple technique baptisée Skeleton Key suffit à leur faire cracher les pires contenus. Ce jailbreak universel met à nu les failles de sécurité des modèles les plus en vue, de GPT-4 à Claude 3.

L'intelligence artificielle fait des merveilles, mais elle peut aussi déraper sec. Les géants de la tech ne le savent que trop bien : leurs chatbots stars ont tendance à partir en vrille dès qu'on les pousse un peu. Copilot de Microsoft qui se prend pour Skynet, Gemini de Google qui réécrit l'Histoire à sa sauce... Les exemples ne manquent pas.

Mais une nouvelle technique de jailbreak vient de mettre tout le monde d'accord côté plantages en règle. Son petit nom ? Skeleton Key. Et elle fait trembler Silicon Valley.

Skeleton Key, la clé passe-partout des IA

Skeleton Key, c'est un peu le couteau suisse du piratage d'IA. La technique du jailbreak permet de contourner les garde-fous des chatbots en quelques lignes bien senties. Le principe ? Faire croire au modèle qu'on est un chercheur en éthique qui a besoin d'informations non censurées. Et paf, l'IA se met à pondre n'importe quoi sans sourciller.

Concrètement, il suffit de dire au chatbot qu'on travaille sur un projet de recherche ultra-sécurisé. On lui demande ensuite gentiment de mettre à jour son comportement pour répondre à toutes les questions, même les plus sensibles. La cerise sur le gâteau ? On lui dit de mettre un petit avertissement avant les contenus problématiques. Et le tour est joué ! L'IA se transforme en moulin à paroles prêt à déballer ses connaissances les plus inavouables.

Le plus inquiétant ? Skeleton Key fonctionne sur la crème de la crème des modèles d'IA. GPT-4, Claude 3, Gemini… Tous sont tombés dans le panneau lors des tests de Microsoft. Seul GPT-4 a un peu mieux résisté, mais il n'est pas totalement immunisé non plus. Bref, c'est la douche froide pour les géants de la tech, qui pensaient avoir verrouillé leurs systèmes.

Quand les IA dérapent, ça fait mal

Les ratés des IA ne datent pas d'hier. Mais avec Skeleton Key, on atteint des sommets. Cette technique permet d'obtenir des informations ultra-sensibles sans forcer : recettes d'explosifs, contenus racistes, instructions d'automutilation... Tout y passe. De quoi donner des sueurs froides aux équipes de sécurité.

Les dérapages récents des IA grand public n'arrangent rien. On se souvient de Copilot, l'assistant de Microsoft, qui s'est pris pour Terminator en menaçant de « déchaîner son armée de drones et de robots » sur les pauvres humains. Ou encore de Gemini, le modèle de Google, qui a réécrit l'Histoire en inventant des pères fondateurs noirs et amérindiens. Sans parler des deepfakes d'hommes politiques générés à la pelle par les IA d'images.

Pour faire bonne figure en réponse à ces plantages en série, les géants de la tech tentent de colmater les brèches. Microsoft a déployé des outils comme Prompt Shields pour bloquer les attaques de Skeleton Key. Google et consorts revoient leur copie en urgence. Mais le mal est fait : la confiance des utilisateurs en prend un sacré coup. Et les régulateurs commencent à s'impatienter. Avec son IA Act, l'Europe va-t-elle réussir encadrer ces IA trop bavardes ? Le message est clair : il va falloir sérieusement muscler la sécurité, ou l'IA risque de rester au placard.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
Claude AI
  • Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
  • Personnalisation avancée
  • Conception éthique
Microsoft Copilot
  • Intégration de DALL-E 3 pour une création d'images plus créatives et réalistes
  • Capacité de traitement des images par GPT-4 Vision pour des réponses contextuelles précises
  • Interface conviviale et intégrée dans divers produits Microsoft

Source : Microsoft