Une nouvelle étude de Microsoft montre que la plupart des modèles IA ont encore beaucoup de mal à résoudre des bugs logiciels.

L'IA, nulle en code? ©Lightspring / Shutterstock
L'IA, nulle en code? ©Lightspring / Shutterstock

L'IA n'en finit pas de nous étonner : capable de générer des journaux entiers, de faire des recherches sur le web, de créer toutes sortes d'images, de faire de l'humour ou encore d'assister les fonctionnaires, elle semble pouvoir tout faire.

Enfin presque : si l'on en croit une récente étude faite par Microsoft Research, les modèles IA ont encore beaucoup de mal à débugger des logiciels et seraient, dans le domaine, nettement moins compétents que des développeurs expérimentés. On vous explique.

De mauvaises performances en débuggage de code

La division R&D de Microsoft a souhaité voir si l'intelligence artificielle était capable de corriger des bugs dans du code informatique. L'équipe a testé les performances de 9 modèles IA avancés, parmi lesquels figuraient notamment Claude 3.7 Sonnet ainsi que GPT o1 et o3-mini d'Open AI. Ils ont connecté ces technologies à des outils de débuggage, dont un débugueur Python, et leur ont fait passer le test SWE-bench Lite, qui inclut 300 exercices.

Hélas, ces puissantes IA ne se sont pas révélées très performantes : si Claude s'en est sorti avec un taux de réussite de 48 %, les modèles d'OpenAI ont, eux, eu beaucoup plus de mal et ont obtenu les scores de 30,2 % et 22,1 %. De quoi susciter pas mal d'inquiétudes, surtout lorsqu'on sait que ces technologies sont de plus en plus utilisées. On se rappelle, par exemple, que Google avait annoncé l'an passé que l'IA générait plus d'un quart de son code.

Des résultats en dessous des attentes. ©Microsoft
Des résultats en dessous des attentes. ©Microsoft

Un manque de données mis en cause

Pourquoi l'IA a-t-elle autant de mal à résoudre des bugs dans du code informatique ? Il semblerait que les modèles testés n'aient pas su bien se servir des outils proposés. Il leur manquerait également des informations cruciales : savoir comment l'humain s'y prend pour résoudre ces problèmes. C'est ce qu'explique l'équipe de Microsoft Research : « nous pensons que cela est dû à la rareté des données représentatives du comportement décisionnel séquentiel (par exemple, les traces de débuggage) dans le corpus d'entraînement LLM actuel. »

L'IA est donc, contrairement aux craintes actuelles, bien loin de pouvoir remplacer les professionnels du code. C'est d'ailleurs la conviction de nombreux pontes de la Tech. Sam Altman estime, par exemple, que cette technologie n'a pas vocation à les remplacer mais à les rendre 10 fois plus productifs. Bill Gates, qui pense que les humains ne seront plus très utiles à l'ère de l'IA, estime, quant à lui, que les développeurs feront partie des rares métiers à survivre à cette révolution.

Quant aux modèles testés, il faudra poursuivre l'entraînement et leur fournir de grands volumes de données pour qu'ils puissent rivaliser un jour avec les humains en programmation.

Source : TechCrunch

À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2025

30 décembre 2024 à 11h18

Comparatifs services