Vous ne voulez pas que ChatGPT aspire les connaissances de votre site ? C'est désormais possible !

Publié le 08 août 2023 à 08h30

Après de nombreux mois de controverse concernant la collecte de données pour entraîner les IA génératives, OpenAI ouvre la voie pour changer la donne.

L'avenir avec l'intelligence artificielle s'annonce-t-il soudainement un peu plus serein ?

Un petit fichier texte à modifier

La base de données de ChatGPT est un peu datée, puisqu'elle est limitée à 2021. C'est un problème pour son développeur, OpenAI, qui doit faire face à une concurrence croissante, notamment à celle de Google Bard, qui a un accès beaucoup plus direct à l'ensemble du Web, et donc potentiellement à ses connaissances. Pour pallier cette carence, un certain GPTBot vient de faire son apparition. Tout comme les robots des moteurs de recherche qui parcourent le Web pour référencer les pages des sites internet, il a la capacité de se balader de page en page, d'en aspirer les données et de les transmettre à ChatGPT.

Une vision d'horreur, dites-vous ? Pas tout à fait, car OpenAI a pensé à tout. En effet, les administrateurs de sites web peuvent dès à présent empêcher GPTBot d'explorer leur contenu en bloquant leur adresse IP, ou bien en modifiant un fichier qu'ils connaissent déjà très bien : robots.txt. Ce dernier agit comme un videur devant un site, autorisant ou non le passage aux robots de Google ou de Bing, pour ne citer qu'eux. Celui de ChatGPT ne fait donc pas exception, et il s'agit d'une très bonne nouvelle, qui pourrait marquer le début de changements majeurs pour le secteur dans la meilleure des directions.

Un précédent significatif pour tout un secteur ?

Entre les grèves de scénaristes, les plaintes d'artistes et le besoin immédiat de créer de nouvelles réglementations, les programmes tels que ChatGPT ou Midjourney ont provoqué un sacré remue-ménage, c'est le moins que l'on puisse dire. Ayant besoin de collecter de nombreuses connaissances pour se former, ils se sont naturellement tournés vers Internet pour en obtenir le plus possible. Cependant, la protection des données personnelles des internautes et de la propriété intellectuelle des créateurs et autres organisations est rapidement devenue un point sensible, au point de provoquer de nombreuses levées de boucliers.

Les intelligences artificielles ont le potentiel d'apporter énormément de changements dans nos habitudes, en bien ou en mal. Cependant, leur utilisation soulève des questions que nos sociétés n'ont pas encore réussi à aborder pleinement et sur lesquelles il n'existe pas de consensus. Les IA génératives développées par les géants de la tech vont donc devoir s'adapter un peu, sous peine de recevoir un énorme retour de bâton qui pourrait bien ralentir leur développement plus qu'autre chose.

C'est pourquoi le secteur travaille main dans la main avec les institutions gouvernementales pour s'adapter sereinement à nos sociétés. En témoigne un accord signé avec la Maison-Blanche par plusieurs entreprises d'IA, dans le but de développer un système permettant de savoir si quelque chose a été généré par l'intelligence artificielle ou non. Et si tout le monde ne promet pas de cesser d'utiliser les données des utilisateurs pour développer ses produits, il se pourrait que de nombreux détracteurs de ChatGPT et compagnie trouvent l'approche d'OpenAI inspirante. Cependant, cette dernière ne se retient pas de préciser que « permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité ».

ChatGPT

Chat dans différentes langues, dont le français
Générer, traduire et obtenir un résumé de texte
Générer, optimiser et corriger du code

9 / 10

Télécharger

Source : The Verge

Par Maxence Glineur

Référencement logiciel

Intelligence artificielle

Actualités High-Tech

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !

Commentaires (0)

Poster mon commentaire

Commentaires (7)

ultrabill

(…) en modifiant un fichier qu’ils connaissent déjà très bien : robot.txt

Ne renvoyez surtout pas vers la doc : OpenAI Platform
Et c’est « robots.txt » au pluriel.

Caramel34

Je trouve ça ridicule, tous les moteurs de recherche « aspirent », d’où les résumés sous les liens.
Si paranoman à peur de voir son ou ses sites aspirés par une IA qu’il commence à bloquer les moteurs.

On diffuse des informations sur le net mais il ne faut surtout pas que ça apparaisse qqpart !

Roger_Pimpon

On produit du contenu mais on ne veut pas que ce contenu soit exploité sans consentement ou contre partie par un tiers pour son profit. Parce qu’il s’agit bien de cela strictement.

MattS32

Ça peut avoir du sens quand même dans certains cas… Par exemple, si j’administrais un site de fausses nouvelles humoristiques, je demanderait à ChatGPT de ne pas utiliser mon site pour son apprentissage pour éviter de le polluer avec des fausses informations reprises hors contexte du site humoristique…

ABC

Il est surprenant qu’il n’y ait pas une simple petite ligne de code à ajouter, comme pour les sites qui ne veulent pas que leur contenu soit référencé.

Le bon usage aurait exigé que les IA demandent l’autorisation aux sites plutôt que de devoir blinder chaque page. Beaucoup ne le feront pas. Les IA c’est l’ubérisation en pire. Violer la loi sans retenue tant que personne ne leur dit stop, ce qui peut prendre du temps.

Caramel34

Dans ce cas oui ça fait sens.

MattS32

robots.txt, c’est pas chaque page, tu peux en mettre un à la racine du site indiquant qu’il s’applique à toute l’arborescence. Et ça fait du coup bien une simple petite ligne à ajouter, comme pour les sites qui ne veulent pas que leur contenu soit référencé. C’est exactement le même système (en fait, ceux qui avaient déjà bloqué le référencement de façon globale, indépendamment du nom du robot, bloquent peut-être même déjà ChatGPT depuis qu’il prend en compte le robots.txt, car s’il fait bien les choses il prend en compte un disallow générique…).

Et OpenAI donne même la plage d’IP du bot pour pouvoir faire un vrai blocage technique (parce que le robots.txt, c’est pas un blocage technique, c’est juste demander au robot de ne pas indexer, mais techniquement rien ne l’empêche de passer outre…).