Un rapport a revendiqué récemment une réussite totale de ChatGPT-4 à l'une des épreuves du MIT (Massachussetts Institute of Technology) mais une étude est rapidement venue contredire cela. Utilisation de données non autorisées et méthodologies douteuses, on vous explique.
L'outil ChatGPT est impressionnant, et encore plus dans sa version 4. Il s'est dit à travers une étude que celui-ci pouvait obtenir un score de 100 % au programme EECS (Electrical Engineering and Computer Science) du très connu MIT. Autant vous dire que l'annonce a suscité l'attention. Néanmoins, l'affaire s'est révélée être une sombre histoire de manipulation des résultats et de collecte de données non éthiques.
Les problèmes méthodologiques au grand jour
L'étude déployée sur l'affaire a été publiée par le professeur Iddo Drori. Elle se nomme sobrement « Exploring the MIT Mathematics and EECS Curriculum Using Large Language Models ». Son but était d'examiner un ensemble de données exhaustif qui comprenaient 4 550 questions et solutions. Celles-ci provenaient des examens finaux et intermédiaires de tous les cours de mathématiques, génie électrique ou d'informatique requis pour obtenir ce diplôme au MIT. L'étude conclut que :
Les résultats démontrent que ChatGPT-3.5 parvient à passer avec succès un tiers des examens de ce programme. La version 4 atteint les 100 % en manipulant complètement les consignes données en amont et en excluant les tests basés sur les images.
Les résultats de la version 3.5 sont déjà réellement impressionnants compte tenu de la difficulté des épreuves. La réussite totale de ChatGPT-4 repose quant à elle seulement sur une reconfiguration des consignes, donc un contournement de la méthodologie à adopter pour résoudre les problèmes. Pas très fair-play M. le chatbot ! Ces affirmations ont enflammé les réseaux sociaux et notamment Twitter, où l'actualité a été retweetée 500 fois en une seule journée.
Des résultats trompeurs et des problèmes éthiques
L'étude a ensuite été examinée par Raunak Chowdhuri et ses collègues. Ceux-ci ont identifié d'autres problèmes. ChatGPT-4 parvenait en fait à tirer des éléments de solutions directement dans les consignes, ou pire, les questions en elles-mêmes n'étaient pas correctement évaluées.
Après une analyse approfondie, Chowdhuri a révélé que le chatbot parvenait à fournir des réponses complètes grâce à l'exploitation d'un type de prompt, nommé « few shot examples ». Ce prompt permet à un modèle tel que ChatGPT-4 d'exploiter le problème et la solution d'un seul coup, ce qui lui donne l'opportunité de créer un contexte supplémentaire aidant à la résolution. Exactement comme si un étudiant connaissait les questions de l'examen à l'avance et parvenait à les déchiffrer une fois devant la feuille d'examen en décryptant un langage caché dans la consigne. Niveau éthique, on a vu mieux.
Deux autres problèmes persistent encore. L'étude prétendait que les réponses fournies par ChatGPT-4 avait été vérifiées manuellement deux fois. Là encore, c'est une affirmation fausse démentie par Chowdhuri. En plus de cela, le chatbot avait accès à des données appartenant au MIT qu'il utilisait sans aucune autorisation.
Cette réussite apparente sent clairement l'entourloupe, et les chercheurs l'ont brillamment démontré en creusant les résultats. Un chatbot n'a pas d'éthique, il ne peut pas comprendre si telle ou telle méthodologie est viable ou non. Il est programmé pour réussir ce qu'on lui demande, quel que soit le chemin emprunté. Tout l'inverse d'un humain, encore plus d'un étudiant en sciences.
- Chat dans différentes langues, dont le français
- Générer, traduire et obtenir un résumé de texte
- Générer, optimiser et corriger du code
Sources : Wccftech, Hugging Face