Mauvais départ pour SearchGPT. Le moteur de recherche signé OpenAI génère des résultats « imprésivibles » et, dans de nombreux cas, inexacts. Un constat qui risque d'affecter les éditeurs de presse, et augmente le risque de propagation de fausses informations.
Lancé en octobre, SearchGPT est un moteur de recherche entièrement alimenté à l'intelligence artificielle (IA). Son objectif : fournir « des réponses rapides et opportunes avec des liens vers des sources Web pertinentes ».
Dans l'optique de « mieux comprendre les conséquences des choix auxquels les éditeurs de presse sont désormais confrontés », le Tow Center for Digital Journalism, un centre de recherche et de développement au sein de l'École de journalisme de l'Université Columbia, a enquêté sur les résultats produits par le modèle. Et leurs conclusions sont peu reluisantes.
La plupart des réponses générées sont incorrectes
Les chercheurs ont demandé à l'outil d'identifier la source de 200 citations provenant de 20 médias différents. Parmi eux, certains ont des accords avec OpenAI, permettant à l'entreprise d'utiliser leur contenu dans ses résultats de recherche contre rémunération. D'autres sont impliqués dans un procès avec la société, à l'instar du New York Times, quand les derniers ne sont pas affiliés.
Dans 153 cas, SearchGPT a fourni des réponses partiellement ou totalement incorrectes, mais il n'a reconnu que 7 fois son incapacité à répondre correctement à la demande. « Ce n'est que dans ces sept résultats que le chatbot a utilisé des mots et expressions qualificatifs tels que "semble", "c'est possible" ou "pourrait", ou des déclarations telles que "je n'ai pas pu localiser l'article exact" », précisent les auteurs de l'étude.
Contrairement aux moteurs de recherche traditionnels qui indiquent clairement quand ils ne trouvent pas de sources, l'intelligence artificielle d'OpenAI préfère inventer des réponses plutôt que d'admettre son ignorance, déplorent-ils. Autre fait préoccupant, l'outil génère des réponses différentes à des requêtes identiques, posées à plusieurs reprises. Un phénomène qui serait issu des paramétrages de GPT-4o, estiment les chercheurs, le modèle étant conçu pour être imaginatif.
Mise en avant de contenus plagiés
Ce n'est pas tout. SearchGPT soulève également des questions relatives au plagiat. À plusieurs reprises, l'IA a cité des sources secondaires au lieu des articles originaux. Lorsqu'il lui a été demandé d'identifier la source d'une citation tirée d'un article du New York Times sur les baleines en voie de disparition, elle a renvoyé un lien vers un autre site, qui avait entièrement plagié l'article. Ceci est d'autant plus problématique que le média américain a spécifiquement interdit à OpenAI d'utiliser ses articles dans ses résultats de recherche.
« Cela interroge quant à la capacité d'OpenAI à filtrer et à valider la qualité et l'authenticité de ses sources de données, en particulier lorsqu'il s'agit de contenus non licenciés ou plagiés », commentent les experts.
Les médias qui autorisent les webcrawlers (logiciels d'indexation qui parcourent le Web automatiquement pour collecter des informations) de l'entreprise ne sont pas épargnés, SearchGPT attribuant la source d'un article du MIT Tech Review à un site qui l'avait repris dans son intégralité.
Les organes de presse impuissants
Un porte-parole d'OpenAI a qualifié la méthode de test du Tow Center d'« atypique ». « Nous soutenons les éditeurs et les créateurs en aidant les 250 millions d'utilisateurs hebdomadaires de ChatGPT à découvrir des contenus de qualité grâce à des résumés, des citations, des liens clairs et des attributions », a-t-il déclaré.
Mais les répercussions pour les organes de presse pourraient être considérables. Non seulement leurs contenus sont utilisés sans contrôle réel, mais la façon dont ils sont présentés risque de brouiller leur identité et leur travail journalistique. Comme le souligne Mat Honan du MIT Tech Review, les éditeurs disposent de très peu de leviers pour faire valoir leurs droits, et se trouvent impuissants face à cette technologie qui transforme la diffusion de l'information. Et les choses risquent d'empirer, ce type de solution continuant de rapidement se développer.
De son côté, OpenAI s'est engagée à « continuer à améliorer les résultats de recherche ».
10 novembre 2024 à 19h08
29 octobre 2024 à 18h03
Source : Colombia Journalism Review