La dernière étude des chercheurs d'Apple jette un pavé dans la mare de l'intelligence artificielle. Alors que les géants de la tech rivalisent d'annonces tonitruantes sur leurs modèles de langage, l'analyse de Cupertino vient tempérer l'enthousiasme ambiant. Et si la crème de la crème des systèmes d'IA n'étaient pas si futée qu'on le pensait ?
Si Apple a un train de retard sur ses concurrents concernant l'intelligence artificielle (Apple Intelligence ne sera disponible dans l'Hexagone qu'en 2025 selon les analystes), elle ne s'est pas gênée pour challenger les modèles existants chez les autres. Publiée sur arXiv, l'étude passe au crible les performances de plusieurs modèles de langage, dont ceux de Meta (un de la famille LLama 3) et d'OpenAI (GPT-4o). Le verdict est sans appel : face à des problèmes mathématiques simples, ces IA vantées par leurs propriétaires presque comme des messies montrent des failles béantes dans leur raisonnement.
Quand l'IA perd ses maths
L'équipe d'Apple a concocté un test d'apparence anodine (un benchmark nommé GSM-Symbolic) : résoudre des problèmes mathématiques de niveau primaire. Mais voilà, il suffisait d'ajouter quelques détails superflus à l'énoncé pour que les IA testées soient à la peine. Une information inutile par-ci, un changement de formulation par là et voilà que les réponses partaient dans tous les sens.
Si votre comptable changeait ses calculs de votre bilan selon la couleur de votre chemise, cela vous paraîtrait absurde, n'est-ce pas ? C'est pourtant le genre de comportement que les chercheurs ont observé chez ces IA réputées surpuissantes. Ces dernières ont réussi à se méprendre dans la résolution de problèmes mathématiques réellement enfantins en considérant des données complètement inutiles dans l'énoncé. Il apparaît, d'après leurs conclusions, qu'une phrase hors sujet glissée dans le prompt peut avoir un impact considérable sur la qualité des résultats, avec une diminution de la précision pouvant aller jusqu'à 65 %. De quoi faire grincer des dents les adeptes du « tout-IA ».
Le mirage de l'omniscience : l'IA à l'épreuve du bon sens
Face à ces résultats déconcertants, les scientifiques d'Apple sont clairs : « Il est tout simplement impossible de créer des agents IA fiables sur cette base ». Leur conclusion est sans appel : ces modèles de langage, aussi impressionnants soient-ils, ne sont pas doués de raisonnement logique. Ils excellent dans l'art du copier-coller sophistiqué, mais peinent à aligner deux pensées cohérentes dès qu'on sort des sentiers battus. « Les modèles de langage ne semblent pas utiliser de raisonnement formel. Leur fonctionnement repose davantage sur une mise en correspondance de motifs, tellement fragile qu’un simple changement de nom peut affecter les résultats de près de 10 % » expliquent-ils.
Ces recherches jettent une lumière assez crue sur les limites actuelles des modèles d'IA existants. Loin des fantasmes d'une intelligence artificielle omnisciente, nous sommes face à des systèmes qui trébuchent encore sur des problèmes qu'un écolier résoudrait sans sourciller. Toute technologie, aussi sophistiquée soit-elle, n'est pas infaillible, Apple vient de le démontrer par A+B.
Sources : Mac Rumors, arXiv