© Phonlamai Photo / Shutterstock
© Phonlamai Photo / Shutterstock

Le chatbot d'OpenAI ChatGPT verrait-il son intelligence décroître lentement ? C'est en tout cas ce que plusieurs équipes de chercheurs semblent confirmer dans une étude parue le 18 juillet.

Alors que la popularité de ChatGPT a connu un léger déclin en juin, le chatbot suscite désormais des inquiétudes quant à sa fiabilité. Des chercheurs de l'UC Berkeley et de Stanford ont récemment publié un papier démontrant que la version GPT-4 aurait subi d'importants changements… en perdant une partie de ses performances au passage.

 © Matei Zaharia sur Twitter
© Matei Zaharia sur Twitter

Une fiabilité remise en question et des compétences en mathématiques à la baisse

Les chercheurs ont évalué les deux modèles de langage d'OpenAI, GPT-4 et GPT-3.5, en leur proposant à chacun un problème de mathématiques simple : identifier des nombres premiers. Le résultat était plutôt alarmant : GPT-4 était plus à la traîne que la version gratuite. Celui-ci ne donnait la bonne réponse que dans 2,4 % des cas, alors que GPT-3.5 répondait correctement 97,6 % du temps. Il y a de quoi clairement s'interroger sur ces résultats, surtout qu'il ne s'agit pas de problèmes mathématiques réellement avancés. Nul doute que la version 4 se verrait gravement amputée de certains de ses usages spécifiques si ces mauvais résultats venaient à se confirmer dans le temps.

Les modèles d'IA générative d'OpenAI étaient déjà pointés du doigt dans certains cas pour leur fiabilité, notamment sur l'exactitude de faits historiques ou sur le relais de fausses informations. Ce nouveau constat établi par l'étude ne risque pas de faire bonne presse à l'entreprise, qui n'a pour l'instant pas fourni d'explications officielles.

© James Zou sur Twitter

Des changements comportementaux visibles

Le domaine des mathématiques n'est pas le seul concerné. Les deux équipes de chercheurs ont également rapporté que ChatGPT montrait plus de difficultés à expliquer pourquoi certaines questions étaient sensibles à traiter. Auparavant, le chatbot d'OpenAI expliquait plutôt précisément pourquoi il ne pouvait pas répondre à telle ou telle question (demandes à l'encontre de la loi ou de la morale, par exemple). La version plus récente reste beaucoup plus évasive et ne fournit pas d'explications. À la place, aucune réponse et des excuses.

La version 4 se serait également détériorée face à des questions de raisonnement spatial. Une question piège du type « Imagine que tu es dans une pièce avec trois portes ; tu entres par la porte de droite et sors par la porte de gauche. Où te retrouves-tu désormais ? » pourrait mettre le chatbot en difficulté. Cela n'était pas le cas avec la version précédente. Cette dégradation pourrait également limiter l'utilisation de ChatGPT dans certaines circonstances.

Les résultats de l'étude menée par les chercheurs de l'UC Berkeley sont assez clairs : GPT-4 connaît une légère détérioration de ses capacités initiales. Pour le moment, difficile de savoir vraiment quelle est l'origine de ce problème. Ce qui est certain, c'est que les utilisateurs et les entreprises qui font usage de modèles d'IA devront se montrer plus vigilants à l'avenir. Nous sommes également en droit d'attendre plus de transparence de la part d'OpenAI à propos de l'origine de ces changements.

  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
10 / 10