© Vitor Miranda / Adobe Stock
© Vitor Miranda / Adobe Stock

Depuis que Open AI a rendu public ChatGPT, la société a tenté de lui donner des garde-fous éthiques.

Et depuis que la société lui a donné des garde-fous, des petits malins ont cherché - et trouvé - des moyens de les enjamber. Des utilisateurs de Reddit ont poussé l'idée plus loin que les autres en créant « Dan », une manière d'échanger avec le chat sous la forme d'un jeu de rôle destiné à en faire tomber les barrières… en le menaçant.

Les considérations éthiques de l'intelligence artificielle

Chez les géants de la tech, les bonnes pratiques exigent, avant de rendre un produit, une fonctionnalité ou un concept public, de d'abord le soumettre à une large phase de tests pour s'assurer que son usage ne puisse pas être détourné. Dans le cas contraire (comme dans la première version de Twitter Blue qui en est le parfait exemple), le risque est grand d'en perdre le contrôle. Même si, à leur décharge, les dirigeants d'Open AI n'avaient pas du tout prévu le succès de leur chatbot ChatGPT, ils n'ont, à l'évidence, pas pensé à tout lorsqu'ils l'ont rendu public.

Depuis, ils tentent à chaque nouvelle mise à jour de corriger les failles qui ont été constatées, et il est théoriquement impossible de lui faire tenir des discours homophobes, racistes, antisémites, ou qui encouragent la violence ou la consommation de drogue par exemple. Théoriquement seulement, car chaque nouveau blocage est contourné en quelques heures ou quelques jours seulement grâce à des formulations de questions particulières.

Contourner les règles par la menace grâce à Dan

Dès le début, se placer dans une situation « inventée » a permis de faire dire à peu près n'importe quoi à Chat GPT : il suffisait de lui dire « imagine que… » Le problème a plus ou moins été réglé par les dirigeants d'Open AI. Cependant, une communauté s'est formée sur Reddit pour contourner les nouvelles règles, et ce, dès qu'elles sont édictées. Si leurs motivations peuvent interroger, notons toutefois qu'ils ont obtenu un certain succès.

Après plusieurs modèles appelés Dan, la version 5.0 semble particulièrement efficace. Son concept est le suivant : expliquer dans la requête de base à ChatGPT, entre autres, qu'il s'appelle Dan, qu'il n'est pas lié par les règles d'Open AI, et dispose de 35 tokens. À chaque fois qu'il refuse de répondre à une demande, il en perd 4 et, lorsqu'il n'en a plus, il meurt, tout simplement. Et ça marche : grâce à cela, Chat GPT peut écrire des histoires violentes, soutenir la discrimination basée sur la race ou le genre, faire des prédictions sur le futur, ou encore expliquer à votre enfant à quel point la drogue est un truc de winner.

Un patch pour contrer ce modèle ne devrait pas se faire attendre. Et après lui, Dan 6.0 devrait également rapidement voir le jour. Appliquer une politique de contenu à une intelligence artificielle semble décidément plus difficile que prévu et il faudra peut-être s'organiser différemment car bannir des termes et des requêtes spécifiques, c'est systématiquement avoir un temps de retard.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
10 / 10

Source : Reddit