© Écran Large
© Écran Large

Ce n'est pas la première fois, et ce ne sera certainement pas la dernière. De nouveau, des chercheurs en cybersécurité ont mis en lumière une nouvelle faille exploitable au sein des modèles de langage alimentés par IA.

Après la découverte de mesures de contournement des protections des chatbots, c'est un autre type de faiblesse logicielle qui a cette fois été repéré par ces chercheurs. Ces modèles de langage peuvent être facilement manipulables par quiconque s'y connaît suffisamment en informatique ou en cybersécurité. Cette nouvelle manière de détourner des chatbots comme Bard ou ChatGPT est baptisée « Indirect Prompt Injection ».

L'Indirect Prompt Injection : un détournement habile, mais potentiellement dangereux

Lorsque vous interagissez avec un chatbot alimenté par une IA générative, vous tapez une requête sous forme de texte. Ces instructions, appelées « prompts », permettent alors au système d'accéder à votre demande de manière directe. Pour empêcher les usages illégaux ou frauduleux, les chatbots sont dotés de protections les empêchant de fournir des informations si le prompt en question est suspect. Jamais ChatGPT ou Google Bard ne vous donneront une méthode infaillible pour organiser un assassinat ou un braquage de banque, par exemple. Encore heureux.

Dans la pratique, et pour la plupart des utilisateurs, ces protections fonctionnent et sont efficaces. La découverte récente de ces chercheurs est cependant inquiétante. Au lieu de fournir un prompt directement, il est possible de fournir des instructions cachées (dans un PDF ou une page web, par exemple) à un modèle pour faire en sorte que l'IA agisse en ignorant ses mesures de protection. Des centaines de cas d'Indirect Prompt Injection ont déjà été répertoriés, et ce n'est visiblement que le début.

© Deemerwha studio / Shutterstock
© Deemerwha studio / Shutterstock

Une pratique qui tend à s'accélerer

Avec cette technique, le champ des possibles est alors largement ouvert : vol de données, exécution de code malveillant ou manipulation d'informations. Le responsable de la sécurité de l'information de Google DeepMind, Vijay Bolina, assure que cette menace est sérieuse. Si cette technique d'injection indirecte était considérée auparavant comme « problématique », aujourd'hui, on la regarde d'un œil bien plus inquiet. En effet, ce type de détournement était plutôt rare, mais les choses ont changé, et ce processus est de plus en plus fréquent depuis qu'il est possible de connecter les modèles de langage à Internet et à différents plugins.

Même s'il n'y a pas de solution miracle, Bolina assure de son côté que Google DeepMind travaille sérieusement sur le développement de modèles d'IA capables d'identifier ce genre d'activités suspectes. Encore une fois, c'est le jeu du chat et de la souris entre les entreprises fournisseuses de services et les hackers. Avec toujours cette même question qui reste en suspens : qui sera le plus rapide à semer l'autre ?

  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
10 / 10

Source : Wired