Le système o3 d'OpenAI a atteint un score de 85 % au test ARC-AGI, une référence conçue pour évaluer l'intelligence générale. Cette performance, qui égale la moyenne humaine, dépasse largement les 55 % obtenus par les précédents systèmes d'IA1.
Ils ont de quoi être enthousiastes les chercheurs qui ont passé le système o3 d'OpenAI sur le grill. La firme de Sam Altman doit également afficher la banane d'avoir sorti son o3, qui doit prochainement faire tourner ChatGPT, récemment. Il a réussi à atteindre un score de 85 % au test de référence ARC-AGI, élaboré pour mesurer la capacité d'un système à généraliser et à s'adapter à de nouvelles situations. Ce score, qui égale la moyenne humaine, dépasse largement les 55 % obtenus par les précédents systèmes d'IA.
Pour les chercheurs et développeurs en IA, on avance à grands pas vers la réalisation d'une intelligence artificielle générale. Pour autant, cet optimisme ne doit pas faire oublier qu'il existe encore des zones d'ombre, notamment sur les implications réelles pour le domaine de l'IA.
o3 démontre une capacité de généralisation impressionnante
Créé par le Français François Chollet, le test ARC-AGI évalue l'efficacité d'échantillonnage d'un système d'IA, c'est-à-dire sa capacité à comprendre et à résoudre de nouveaux problèmes à partir d'un nombre limité d'exemples. On considère cette aptitude comme un élément fondamental de l'intelligence.
Le test utilise des problèmes de grille carrée où l'IA doit déterminer le modèle qui transforme une grille initiale en une grille finale. Chaque question fournit trois exemples à partir desquels le système doit apprendre et généraliser les règles pour résoudre un quatrième cas.
La performance d'o3 sur ce test montre qu'il est parfaitement capable d'identifier les règles les plus « faibles » ou les plus simples qui expliquent les transformations observées. Cette aptitude à trouver des explications concises et généralisables est essentielle pour s'adapter efficacement à de nouvelles situations, une caractéristique primordiale de l'intelligence générale.
Bien que la méthode exacte utilisée par OpenAI reste inconnue, certains experts, dont François Chollet, pensent qu'o3 pourrait rechercher différentes « chaînes de pensée » en décrivant les étapes pour résoudre la tâche, puis sélectionner la meilleure. Cette méthode rappelle celle utilisée par AlphaGo de Google pour vaincre le champion du monde de Go.
Des incertitudes malgré la performance impressionnante
Malgré l'enthousiasme que les résultats d'o3 ont provoqué, de nombreuses questions restent sans réponse. OpenAI s'est mis en mode avare d'information, et sa communication se limite a quelques présentations médiatiques ainsi qu'à des tests préliminaires auprès d'un nombre restreint de chercheurs et d'institutions. Un flou qui rend l'évaluation complète et objective difficile sur les réelles capacités du système.
Il est possible que la performance d'o3 sur le test ARC-AGI soit le résultat d'une optimisation spécifique plutôt que d'une véritable intelligence générale comparable à celle d'un humain. Le système pourrait avoir été entraîné spécifiquement pour exceller dans ce type de tâche, sans pour autant posséder une compréhension plus profonde ou une capacité de généralisation applicable à d'autres domaines.
Pour véritablement comprendre le potentiel d'o3, des évaluations approfondies seront nécessaires. Il faudra examiner la répartition de ses capacités, la fréquence de ses échecs et de ses réussites dans divers contextes, et sa capacité à s'adapter à des situations radicalement différentes de celles du test ARC-AGI.
Mais si o3 s'avère effectivement capable d'une adaptation comparable à celle d'un humain moyen dans un large éventail de situations, les implications pourraient être considérables. Cela pourrait ouvrir la voie à une nouvelle ère d'intelligence artificielle auto-améliorante, avec des impacts économiques et sociétaux potentiellement révolutionnaires, indique The Conversation.
Ce sont ces inconnues et ces hypothèses qui inspirent la prudence sur les conclusions à tirer de cette annonce. Comme bien souvent, seul le temps dira si o3 pèsera dans le domaine de l'intelligence artificielle générale.
Source : The Conversation (en anglais)