L'encyclopédie en ligne vient de mettre en place une base de données particulière. Elle va permettre aux bots IA de récolter plus facilement ses données.

Une page Wikipedia est ouverte sur un ordinateur © Oberon Copeland / Unsplash
Une page Wikipedia est ouverte sur un ordinateur © Oberon Copeland / Unsplash

L'aliment principal des grandes modèles de langage, ce sont évidemment les données. Des données qui permettent d'améliorer leurs performances, et qui sont à l'origine des grands chatbots que l'on connaît comme ChatGPT, Gemini ou Claude. Mais elles sont devenues tellement importantes que leur récolte peut poser problèmes à certains grands pourvoyeurs. Alors pour simplifier la tâche, certains comme Wikipedia proposent de nouveaux outils.

Wikipedia propose une base de données pour les bots IA récoltant les données

C'est une nouvelle interface quoi devrait intéresser de nombreux acteurs de l'IA. La plus grande encyclopédie au monde Wikipedia vient en effet d'annoncer qu'elle lançait une grande base de données de contenus en français et en anglais, destiné aux robots récoltant des données sur le web pour le développement de modèles de langage.

Cette nouvelle base de données est construite en partenariat avec la filiale de Google, Kaggle, la plateforme web interactive spécialisée dans la Data Science. Elle a été « conçue pour les flux de travail d'apprentissage automatique ».

© Alexandre Boero / Clubic
© Alexandre Boero / Clubic

L'objectif ? Réduire la pression sur les serveurs

Elle sera ainsi un outil bien plus intéressant pour les développeurs d'IA afin d'accéder plus aisément à des articles lisibles par machine, et donc utilisables ultérieurement. Un schéma gagnant-gagnant, car si d'un côté les développeurs IA voient leur travail réduit, Wikipedia devrait aussi être bénéficiaire.

En effet, la fondation à l'origine de l'encyclopédie a récemment fait état des problèmes rencontrés à cause de l'activité toujours plus effrénée des bots de récoltes de données. Ceux-ci ont fini par générer un trafic qui sollicite trop fortement les serveurs de Wikipedia, ce qui représente une hausse des coûts de fonctionnement pour la plateforme, mais aussi une augmentation des risques. L'encyclopédie avait alors annoncé travailler sur des solutions pour remédier au problème. Sera-ce le cas ?

Source : The Verge

  • L'immensité du contenu proposé
  • L'accès aux fiches en mode hors ligne
  • La gratuité