Les chercheurs du Tow Center for Digital Journalism ont évalué huit moteurs de recherche IA et constaté des erreurs fréquentes, des citations trompeuses et des liens falsifiés. Ces outils peinent à fournir des informations fiables et à identifier correctement leurs sources. Et le triste champion est Grok 3, le chatbot d’Elon Musk qui se trompe dans 94 % des cas.

Une étude récente menée par le Tow Center for Digital Journalism montre les faiblesses des moteurs de recherche basés sur l’intelligence artificielle. En testant huit outils, dont Grok 3, les chercheurs ont relevé un taux d’erreur global qui dépasse 60 %. Grok 3 atteint à lui seul 94 % de réponses incorrectes, ce qui en fait l’un des plus mauvais élèves du panel.
Même si on le sait, et que les éditeurs de ces assistants le précisent eux-mêmes, les erreurs ne se limitent pas aux réponses inexactes. Ces IA fabriquent parfois des liens inexistants, attribuent les contenus à de mauvaises sources et contournent les restrictions mises en place par certains éditeurs de presse.
Les IA de recherche fournissent souvent des résultats incorrects et difficilement vérifiables
L'étude du Tow Center for Digital Journalism a analysé huit moteurs de recherche IA, en leur soumettant des extraits d'articles de presse. Les chercheurs voulaient vérifier leur capacité à identifier correctement la source originale, l'URL, la date et l'éditeur du contenu.
Les résultats montrent que ces systèmes produisent des erreurs fréquentes. Collectivement, ils ont fourni des réponses incorrectes dans plus de 60 % des cas. Grok 3, dont les débuts n'ont pas franchement convaincu, affiche un taux d'erreur de 94 %, ce qui en fait l'un des outils les moins fiables du panel. D'autres IA, comme Perplexity, ont un taux d'erreur moindre, mais restent loin d'être précises.
Les chatbots testés donnent rarement des indices sur leur niveau d'incertitude. ChatGPT, par exemple, a donné 134 réponses incorrectes sur 200 requêtes, tout en n'indiquant un manque de confiance que dans 15 cas. Seul Copilot s'est distingué en refusant de répondre à plus de questions qu'il n'en a traitées. On peut dire que c'est le plus honnête de ses pairs.
En plus de ces erreurs, les chatbots citent souvent des URL inexistantes ou erronées. Grok 3 et Gemini renvoient vers des liens cassés plus de la moitié du temps. Ces résultats compliquent la vérification des sources par les utilisateurs. Les chercheurs ont aussi constaté que certaines IA contournaient les restrictions imposées par les éditeurs de presse, en accédant à des contenus pourtant bloqués dans leurs fichiers robots.txt.

Les erreurs de citation privent les éditeurs de trafic et compliquent l'accès aux sources fiables
Autre donnée de l'étude qui pose un sérieux problème : les moteurs de recherche IA utilisent des contenus journalistiques sans garantir une attribution correcte aux éditeurs d'origine. Plusieurs outils analysés attribuent fréquemment des articles à de mauvaises sources ou citent des versions publiées par des intermédiaires plutôt que les articles initiaux.
Ces erreurs nuisent aux éditeurs en diminuant le trafic vers leurs sites et en brouillant l'identification des sources fiables. Même lorsque les chatbots trouvent l'article original, ils renvoient parfois vers une URL incorrecte ou vers une page d'accueil au lieu du contenu précis recherché. Grok 3 et Gemini affichent particulièrement ce problème, avec un nombre élevé de liens erronés.
Les partenariats entre entreprises d'IA et médias ne garantissent pas une meilleure précision des citations. Malgré des accords avec certains éditeurs, des chatbots comme Perplexity et ChatGPT continuent de citer des sources incorrectes ou d'omettre les liens directs vers les articles originaux.
Les chercheurs soulignent que ces problèmes ne sont pas propres à un modèle en particulier, mais touchent l'ensemble des IA de recherche. L'étude conclut que, tant que ces outils ne feront pas preuve de plus de rigueur dans le traitement de l'information, ils resteront des sources peu fiables pour la recherche d'actualités.
Aux utilisateurs, comme souvent, de bien tirer le bon grain de l'ivraie.
Source : Columbia Journalism Review