Pour devenir aussi performant, ChatGPT s'est entraîné sur une quantité astronomique de ressources, et votre site web en fait peut-être partie. Sachez qu'il existe des solutions pour se prémunir de l'exploitation de vos textes par OpenAI.
Fondé sur le modèle de langage GPT-4, ChatGPT est un agent conversationnel qui a réponse à tout, ou presque. Pour assurer son bon fonctionnement, la société qui l'a développé, OpenAI, a eu recours à une gigantesque base de données de contenus publiés et disponibles en ligne. Pour alimenter les connaissances de ChatGPT, la firme a utilisé des livres, Wikipédia, des sites de presse, des publications Reddit et diverses pages web en tout genre… dont fait potentiellement partie votre propre site web.
Mais OpenAI ne vous a jamais demandé l'autorisation d'exploiter votre contenu pour améliorer ses modèles de langage, et donc, ChatGPT. L'entreprise ne vous rémunère pas non plus pour votre participation à l'évolution des capacités de son produit. Vous pouvez avoir plusieurs raisons de souhaiter que le contenu de votre site ne soit pas siphonné par ChatGPT à ses fins d'entraînement, qu'elles soient d'ordre pratique ou moral : éviter de surcharger votre site de requêtes, refuser par principe de participer à l'émergence de l'intelligence artificielle…
Comment empêcher ChatGPT d'exploiter le contenu de votre site web ?
Voilà pourquoi nous vous présentons quelques astuces qui devraient vous permettre de bloquer l'accès aux contenus de votre site à ChatGPT.
1. Bloquer Common Crawl sur tout votre site grâce au fichier robots.txt
L'une des méthodes utilisées par OpenAI pour alimenter ses modèles de langage est Common Crawl. Il s'agit d'une organisation à but non lucratif qui a mis au point un robot baptisé CCBot. Son but est d'explorer et d'analyser le Web pour fournir gratuitement des archives et des ensembles de données de contenus publiés sur Internet.
CCBot a recours au protocole robots.txt pour effectuer ses opérations de ce que l'on appelle « crawling » en anglais. Ce fichier se trouve à la racine de votre site web, et son rôle est d'indiquer aux robots d'exploration les URL auxquelles il a le droit d'accéder sur votre domaine.
Pour bloquer CCBot, auquel a recours ChatGPT, sur l'ensemble de votre site web, ajoutez les instructions suivantes à votre fichier robots.txt :
User-agent: CCBot
Disallow: /
2. Utiliser une balise nofollow dans les métadonnées de son site web
Toujours pour limiter l'accès à vos contenus par CCBot, vous disposez de la possibilité d'ajouter une balise nofollow au sein des métadonnées de votre code HTML, qui sert à structurer et mettre en page votre site web. Celle-ci va faire savoir aux robots que vous ne désirez pas que le contenu de votre site soit indexé. La balise en question est celle-ci :
<meta name="CCBot" content="nofollow">
3. Recourir à des captchas contre les robots
Les captchas sont une technique de sécurité très populaire sur Internet, et leur but principal est d'éviter la surcharge des sites web causée par des robots en leur imposant un test qu'ils ne sont pas censés réussir. Cette solution n'est à recommander que si vous craignez également que des robots malveillants s'en prennent à votre site, notamment dans le cadre d'attaques par déni de service (DDoS). En effet, ces captchas seront aussi imposés à vos visiteurs humains, ce qui peut détériorer leur expérience sur votre site web. Privilégiez donc les deux autres solutions que nous décrivons plus haut.
Ces quelques méthodes devraient suffire à empêcher dorénavant ChatGPT (et toutes les plateformes ayant recours aux bases de données constituées par les robots d'exploration) d'utiliser votre site web et les contenus qu'il héberge comme terrain de jeu. Mais vous n'êtes bien sûr pas à l'abri que le chatbot ait déjà eu accès à vos ressources dans le passé. Gardez aussi à l'esprit qu'il peut dans certains cas être intéressant de laisser les robots scanner son site, tous ne vous veulent pas du mal.
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code