OpenAI propulse l'intelligence artificielle vers de nouveaux horizons avec o3, un modèle capable de résoudre des énigmes complexes et de décomposer son raisonnement étape par étape. Ce successeur de GPT-4 arrivera dans ChatGPT en 2025.
Pour marquer le dernier jour de son opération « Ship-mas », OpenAI a dévoilé o3, son dernier modèle d'IA dit d'avant-garde qui renverse la table des codes établis. Cette nouvelle mouture ne se contente pas de prédire seulement la suite logique des mots comme ses prédécesseurs.
Elle décompose les problèmes en microtâches et expose son raisonnement. Les performances d'o3 pulvérisent les records : il résout 25,2 % des énigmes mathématiques les plus complexes, là où les autres modèles plafonnent à 2 %.
o3 redéfinit les frontières du raisonnement artificiel
S'il fallait incarner une rupture technologique avec les modèles de langage classiques comme GPT-4, o3 serait le meilleur candidat. Là où ses cousins actuels excellent dans la prédiction du mot suivant, o3 passe la seconde, voire la troisième. Il décompose chaque problème en sous-tâches et montre avec exactitude les étapes de son raisonnement. Un incroyable talent qui lui permet d'atteindre des performances inédites sur des tests techniques pointus.
Le modèle a notamment brillé lors de la compétition mathématique AIME 2024, en ne ratant qu'une seule question. Sur les comparatifs scientifiques de haut niveau, il atteint 87,7 % de réussite au GPQA Diamond. Et si cela n'est pas suffisant, sachez qu'il surpasse le scientifique en chef d'OpenAI en programmation compétitive et améliore de 22,8 % les scores des tests de codage SWE-Bench Verified par rapport à son prédécesseur.
Pour l'heure, o3 ne se destine pas au grand public, mais aux scientifiques, avec une capacité à déduire des réponses qui dépassent le simple enchaînement statistique.
OpenAI privilégie la sécurité avant le déploiement public d'o3
Malgré l'enthousiasme suscité par les performances d'o3, OpenAI a donc choisi de ne pas le rendre immédiatement accessible au grand public. L'entreprise a opté pour une stratégie de déploiement progressive, en commençant par une phase de tests de sécurité approfondis.
La phase de tests, baptisée « Public Safety Testing », permettra à des chercheurs sélectionnés et à des membres d'un programme sur inscription d'interagir avec o3. Cette avancée à pas de loup servira à identifier et à résoudre d'éventuels problèmes de sécurité avant un déploiement à plus grande échelle, prévu pour 2025. Et dans ces tests, on retrouve notamment l'alignement délibératif. En clair, on oblige le modèle à évaluer étape par étape si les demandes des utilisateurs respectent les politiques de sécurité d'OpenAI. Plutôt que de simplement appliquer des règles prédéfinies, o3 doit activement raisonner pour déterminer la conformité d'une requête. Cette méthode s'est révélée plus efficace que les approches précédentes pour garantir le respect des consignes de sécurité.
OpenAI espère que cette période de test permettra non seulement d'améliorer la sécurité d'o3, mais aussi de recueillir des retours précieux sur ses performances dans des scénarios du monde réel. Qui va lentement va sûrement, et qui va sûrement va loin.
Source: The Verge