Skeleton Key, ce jailbreak qui fait dire n'importe quoi aux IA les plus populaires

Mélina LOUPIA
Publié le 28 juin 2024 à 17h57
Skeleton Key, ce jailbreak qui génère du contenu pas très catholique © 1st footage / Shutterstock
Skeleton Key, ce jailbreak qui génère du contenu pas très catholique © 1st footage / Shutterstock

Les chatbots d'IA ont beau être bardés de garde-fous, une simple technique baptisée Skeleton Key suffit à leur faire cracher les pires contenus. Ce jailbreak universel met à nu les failles de sécurité des modèles les plus en vue, de GPT-4 à Claude 3.

L'intelligence artificielle fait des merveilles, mais elle peut aussi déraper sec. Les géants de la tech ne le savent que trop bien : leurs chatbots stars ont tendance à partir en vrille dès qu'on les pousse un peu. Copilot de Microsoft qui se prend pour Skynet, Gemini de Google qui réécrit l'Histoire à sa sauce... Les exemples ne manquent pas.

Mais une nouvelle technique de jailbreak vient de mettre tout le monde d'accord côté plantages en règle. Son petit nom ? Skeleton Key. Et elle fait trembler Silicon Valley.

Skeleton Key, la clé passe-partout des IA

Skeleton Key, c'est un peu le couteau suisse du piratage d'IA. La technique du jailbreak permet de contourner les garde-fous des chatbots en quelques lignes bien senties. Le principe ? Faire croire au modèle qu'on est un chercheur en éthique qui a besoin d'informations non censurées. Et paf, l'IA se met à pondre n'importe quoi sans sourciller.

Concrètement, il suffit de dire au chatbot qu'on travaille sur un projet de recherche ultra-sécurisé. On lui demande ensuite gentiment de mettre à jour son comportement pour répondre à toutes les questions, même les plus sensibles. La cerise sur le gâteau ? On lui dit de mettre un petit avertissement avant les contenus problématiques. Et le tour est joué ! L'IA se transforme en moulin à paroles prêt à déballer ses connaissances les plus inavouables.

Le plus inquiétant ? Skeleton Key fonctionne sur la crème de la crème des modèles d'IA. GPT-4, Claude 3, Gemini… Tous sont tombés dans le panneau lors des tests de Microsoft. Seul GPT-4 a un peu mieux résisté, mais il n'est pas totalement immunisé non plus. Bref, c'est la douche froide pour les géants de la tech, qui pensaient avoir verrouillé leurs systèmes.

Quand les IA dérapent, ça fait mal

Les ratés des IA ne datent pas d'hier. Mais avec Skeleton Key, on atteint des sommets. Cette technique permet d'obtenir des informations ultra-sensibles sans forcer : recettes d'explosifs, contenus racistes, instructions d'automutilation... Tout y passe. De quoi donner des sueurs froides aux équipes de sécurité.

Les dérapages récents des IA grand public n'arrangent rien. On se souvient de Copilot, l'assistant de Microsoft, qui s'est pris pour Terminator en menaçant de « déchaîner son armée de drones et de robots » sur les pauvres humains. Ou encore de Gemini, le modèle de Google, qui a réécrit l'Histoire en inventant des pères fondateurs noirs et amérindiens. Sans parler des deepfakes d'hommes politiques générés à la pelle par les IA d'images.

Pour faire bonne figure en réponse à ces plantages en série, les géants de la tech tentent de colmater les brèches. Microsoft a déployé des outils comme Prompt Shields pour bloquer les attaques de Skeleton Key. Google et consorts revoient leur copie en urgence. Mais le mal est fait : la confiance des utilisateurs en prend un sacré coup. Et les régulateurs commencent à s'impatienter. Avec son IA Act, l'Europe va-t-elle réussir encadrer ces IA trop bavardes ? Le message est clair : il va falloir sérieusement muscler la sécurité, ou l'IA risque de rester au placard.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
Claude AI
  • Upload de fichiers pouvant aller jusqu'à 100 000 tokens (75 000 mots environ)
  • Personnalisation avancée
  • Conception éthique
Microsoft Copilot
  • Intégration de DALL-E 3 pour une création d'images plus créatives et réalistes
  • Capacité de traitement des images par GPT-4 Vision pour des réponses contextuelles précises
  • Interface conviviale et intégrée dans divers produits Microsoft

Source : Microsoft

Par Mélina LOUPIA

Modératrice, contributrice et community manager pour le regretté OVNI Le Post, puis journaliste société spécialisée dans la parentalité et la psychologie notamment sur Le HuffPost, l'univers du Web, des réseaux, des machines connectées et de tout ce qui s'écrit sur Internet s'inscrit dans le champ de mes sujets préférés.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !
Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Commentaires (10)
gamez

j’imagine que ça a déjà été patché

ovancantfort

Je sens bien venir la solution à la con: on va mettre une deuxième IA qui va vérifier ce que dit l’IA. En fait, c’est dejà ce que OpenAI a commencé à faire.
Et puis, quand cette deuxième IA se fera dépasser, on mettra une troisième IA qui surveillera ce que fait la deuxième IA qui vérifie la première IA et ainsi de suite. L’IA a de beaux jours devant elle…

nicgrover

Absolument… IA

codeartemis37

au lieu de patcher les patchs sur patch (la phrase ne veut rien dire :face_with_raised_eyebrow:) il faudrait créer une ia qui calcule un score de « chelousitées »

Catstom

Une solution simple aurait pu être de tout simplement ne pas avoir alimenté les IA avec un tel contenu…

sebstein

Quel contenu ? Des faits ?
Construire une bombe n’est pas si sorcier, c’est juste de la chimie.

Bombing_Basta

L’intelligence artificielle fait des merveilles

Ah bon ?

Bombing_Basta

Jusqu’à maintenant limité aux chimistes.
Mais « l’intelligence artificielle faisant des merveilles »… :rofl:

Aegis

Article intéressant mais très alarmiste. Des découvertes comme ça, il y en a tous les jours.

Alexzeyos

le nom de Skeleton Key est en rapport avec l’objet du même nom dans Oblivion ?