Google vient d'officialiser une fonction qui permettra aux sites web de refuser l'absorption de leurs données à des fins d'entraînement de l'IA.
La question des données avalées en quantités gigantesques par des entreprises comme OpenAI pour leur chatbot, et ce, sans jamais demander d'autorisations, a entraîné de nombreuses polémiques, dont certaines ont fini par se terminer par des plaintes devant la justice. Alors pour éviter qu'à l'avenir, les contributeurs humains à internet voient leur travail utilisé gratuitement, et sans leur consentement, Google a décidé de proposer une fonction de blocage qui devrait faire fureur !
Rencontrez « Google-Extended »
Google est très engagé dans la question de l'intelligence artificielle, avec Bard évidemment, mais aussi avec son prochain modèle de langage Gemini. Pour autant, la firme américaine semble vouloir apporter un peu de règles dans la jungle du web où les entreprises récoltent sans vergogne les données dont elles ont besoin.
Elle vient ainsi d'officialiser son nouvel outil « Google-Extended », qui va permettre aux créateurs de contenu sur internet de laisser le moteur de recherche continuer à indexer leur site, tout en étant en mesure d'interdire l'utilisation de leurs données par les développeurs d'intelligence artificielle.
Ça se passe sur robots.txt
Comment cela va-t-il se passer ? Eh bien, Google-Extender sera utilisable à travers robots.txt, le protocole d'exclusion des robots placé à la racine des sites web qui indique quelles données peuvent être indexées ou non par les bots d'exploration. Les créateurs de site web pourront ainsi y désigner leur volonté de ne pas voir leurs données être saisies par les bots d'exploration des sociétés d'intelligence artificielle.
Il s'agit d'une manière de procéder qui avait déjà été choisie par le New York Times cet été, quand le journal américain avait explicitement interdit sur son fichier robots.txt l'indexation de ses données par le bot d'exploration d'OpenAI. Cette mise à jour importante de Google devrait ainsi arriver au même résultat, mais sans rendre impossible l'indexation sur le moteur de recherche de la firme, activité qui est vitale pour la plupart des entités sur la toile.
- Un modèle de génération puissant
- Une base de connaissances actualisée en temps réel
- Gratuit et intégré à l'écosystème Google
Source : The Verge