© Primakov / Shutterstock
© Primakov / Shutterstock

Largement utilisée pour entraîner les modèles d'intelligence artificielle, l'existence même de Wikipédia pourrait désormais être menacée par ces derniers.

Si l'on est loin du consensus dans la communauté des éditeurs de Wikipédia quant à l'attitude à adopter face au développement de l'intelligence artificielle, celui-ci ne les laisse évidemment pas indifférents. Une conférence sur la question, tenue en mars dernier, a cependant fait émerger une position derrière laquelle la plupart peuvent se ranger : ils souhaitent que le savoir continue d'être créé par des humains.

Wikipédia, un trésor pour les LLM

Pour entraîner un modèle de langage d'IA, Wikipédia est tout simplement le meilleur terrain de jeu possible. L'encyclopédie en ligne coche en effet toutes les cases : elle compte plus de 61 millions d'articles, est disponible en 334 langues, présente des informations sourcées et vérifiées, mises à jour presque en temps réel. De plus, les articles y sont formatés et chapitrés clairement, et surtout, l'ensemble est accessible librement et gratuitement. Pour ne rien gâcher, il n'y existe pas non plus de limite quant au nombre de posts que l'on peut y consulter.

Il n'est donc pas étonnant que les chatbots qui ont vu le jour ces derniers mois se soient servis sans compter dans cette formidable base de données, au point qu'il n'est pas exagéré de dire que sans Wikipédia, l'IA générative n'existerait pas, tout du moins pas sous sa forme actuelle.

Mais désormais, plus rien ne semble empêcher un futur où l'un des élèves prend la place du maître.

© Koshiro K / Shutterstock
© Koshiro K / Shutterstock

L'encyclopédie va-t-elle se faire dépasser par l'IA ?

La menace semble suffisamment sérieuse pour qu'en mars dernier, une vidéoconférence rassemble de nombreux éditeurs de l'encyclopédie pour échanger sur les risques posés par le développement de l'IA générative. Si certains d'entre eux se sont montrés plutôt confiants quant aux possibilités offertes par l'IA pour développer l'audience, mais aussi enrichir les articles de Wikipédia, ils ne faisaient clairement pas l'unanimité.

Sans même dénaturer Wikipédia, l'IA compte déjà de sérieux avantages sur le site. Un éditeur interrogé par le New York Times explique ainsi qu'un futur dans lequel une intelligence artificielle synthétise, source et compile sur un seul site l'intégralité des articles postés sur Internet presque en temps réel ne semble plus très éloigné. Il ne lui faudrait alors probablement pas beaucoup de temps pour dépasser Wikipédia, en tout cas en matière de quantité de contenu. Il faut dire que l'IA n'a pas ces défauts bien humains que sont le temps de réflexion et l'argumentation. Pour lui, un tel site n'aurait même pas besoin d'être à la hauteur de Wikipédia, il pourrait être seulement passable.

Par ailleurs, sans aller jusque-là, les chatbots comptent déjà un avantage significatif sur l'encyclopédie : la fluidité. Il est en effet infiniment plus simple de poser une question à ChatGPT que de lire toute une page Wikipédia à la recherche d'une simple information. Mais pour les éditeurs de l'encyclopédie, se faire dépasser par l'intelligence artificielle est potentiellement catastrophique. Si les réponses des chatbots sont généralement correctes, elles continuent fréquemment d'halluciner et sont très mauvaises quand il s'agit de citer leurs sources, allant parfois jusqu'à les inventer, deux péchés capitaux dans les principes fondateurs de Wikipédia.

Pour être honnête, il est déjà invraisemblable que Wikipédia, dernier vestige d'une vision utopique d'Internet qui refuse la vision capitaliste de tous les autres sites à l'audience comparables, n'affiche pas de publicités, ne récolte pas d'informations personnelles et donne de l'importance à la vérité, ait déjà survécu aussi longtemps.

  • L'immensité du contenu proposé
  • L'accès aux fiches en mode hors ligne
  • La gratuité