La dernière étude des chercheurs d'Apple jette un pavé dans la mare de l'intelligence artificielle. Alors que les géants de la tech rivalisent d'annonces tonitruantes sur leurs modèles de langage, l'analyse de Cupertino vient tempérer l'enthousiasme ambiant. Et si la crème de la crème des systèmes d'IA n'étaient pas si futée qu'on le pensait ?

La firme de Cupertino s'est attaqué à plusieurs ténors du secteur pour éprouver leurs modèles.   © 24K-Production / Shutterstock
La firme de Cupertino s'est attaqué à plusieurs ténors du secteur pour éprouver leurs modèles. © 24K-Production / Shutterstock

Si Apple a un train de retard sur ses concurrents concernant l'intelligence artificielle (Apple Intelligence ne sera disponible dans l'Hexagone qu'en 2025 selon les analystes), elle ne s'est pas gênée pour challenger les modèles existants chez les autres. Publiée sur arXiv, l'étude passe au crible les performances de plusieurs modèles de langage, dont ceux de Meta (un de la famille LLama 3) et d'OpenAI (GPT-4o). Le verdict est sans appel : face à des problèmes mathématiques simples, ces IA vantées par leurs propriétaires presque comme des messies montrent des failles béantes dans leur raisonnement.

Quand l'IA perd ses maths

L'équipe d'Apple a concocté un test d'apparence anodine (un benchmark nommé GSM-Symbolic) : résoudre des problèmes mathématiques de niveau primaire. Mais voilà, il suffisait d'ajouter quelques détails superflus à l'énoncé pour que les IA testées soient à la peine. Une information inutile par-ci, un changement de formulation par là et voilà que les réponses partaient dans tous les sens.

Si votre comptable changeait ses calculs de votre bilan selon la couleur de votre chemise, cela vous paraîtrait absurde, n'est-ce pas ? C'est pourtant le genre de comportement que les chercheurs ont observé chez ces IA réputées surpuissantes. Ces dernières ont réussi à se méprendre dans la résolution de problèmes mathématiques réellement enfantins en considérant des données complètement inutiles dans l'énoncé. Il apparaît, d'après leurs conclusions, qu'une phrase hors sujet glissée dans le prompt peut avoir un impact considérable sur la qualité des résultats, avec une diminution de la précision pouvant aller jusqu'à 65 %. De quoi faire grincer des dents les adeptes du « tout-IA ».

 Le test d'Apple a mis a mal les systèmes d'IA d'OpenAI. © rarrarorro / Shutterstock
Le test d'Apple a mis a mal les systèmes d'IA d'OpenAI. © rarrarorro / Shutterstock

Le mirage de l'omniscience : l'IA à l'épreuve du bon sens

Face à ces résultats déconcertants, les scientifiques d'Apple sont clairs : « Il est tout simplement impossible de créer des agents IA fiables sur cette base ». Leur conclusion est sans appel : ces modèles de langage, aussi impressionnants soient-ils, ne sont pas doués de raisonnement logique. Ils excellent dans l'art du copier-coller sophistiqué, mais peinent à aligner deux pensées cohérentes dès qu'on sort des sentiers battus. « Les modèles de langage ne semblent pas utiliser de raisonnement formel. Leur fonctionnement repose davantage sur une mise en correspondance de motifs, tellement fragile qu’un simple changement de nom peut affecter les résultats de près de 10 % » expliquent-ils.

Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2024
L'émergence de l'intelligence artificielle comme outil grand public a ouvert de nombreuses possibilités pour tous les producteurs de contenus. Texte, image, son… Cette nouvelle technologie à la mode peut maintenant apporter son assistance dans de très nombreux domaines, et faciliter le travail dans les étapes les plus ingrates de la création. Et avec une offre qui ne cesse de s'accroître, il est important de distinguer quels outils apportent une véritable valeur ajoutée. Histoire de ne pas perdre des heures à essayer tout ce que proposent les pages de résultats de Google !

Ces recherches jettent une lumière assez crue sur les limites actuelles des modèles d'IA existants. Loin des fantasmes d'une intelligence artificielle omnisciente, nous sommes face à des systèmes qui trébuchent encore sur des problèmes qu'un écolier résoudrait sans sourciller. Toute technologie, aussi sophistiquée soit-elle, n'est pas infaillible, Apple vient de le démontrer par A+B.

Sources : Mac Rumors, arXiv