OpenAI vient de présenter o3 et o4-mini, deux modèles d'IA marquant une étape clé : ils peuvent manipuler activement les images dans leur processus de réflexion. Cette avancée, couplée à une meilleure intégration des outils, transforme ChatGPT en un assistant plus autonome et polyvalent, capable d'enchaîner actions et raisonnements complexes.

Les nouveaux modèles de raisonnement premium d'OpenAI sont là. © OpenAI
Les nouveaux modèles de raisonnement premium d'OpenAI sont là. © OpenAI

Confirmant les ajustements de sa feuille de route qui repoussaient GPT-5, OpenAI lève le voile sur o3 et o4-mini. Ces modèles introduisent une évolution notable : la capacité de « penser avec les images », permettant une interaction et une analyse visuelle beaucoup plus poussées qu'auparavant. Loin d'être de simples mises à jour, ils dotent l'IA de capacités agentiques accrues.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
9 / 10

Des modèles qui pensent avec les images

La grande nouveauté est la capacité d'o3 et o4-mini à transformer activement les images au sein de leur chaîne de raisonnement. Ils ne se contentent plus de voir une image ; ils peuvent la recadrer, zoomer sur un détail, la pivoter ou l'améliorer pour en extraire plus d'informations pertinentes, comme le ferait un humain. Cette manipulation visuelle native est directement intégrée au processus de réflexion, sans nécessiter de modèles spécialisés distincts. Cette faculté améliore significativement l'analyse de graphiques, la reconnaissance de caractères (OCR) sur des images de qualité médiocre ou la résolution de problèmes visuels complexes.

Les modèles peuvent désormais se focaliser sur les éléments essentiels d'une image pour affiner leur compréhension et leur réponse. © OpenAI

Si les deux modèles partagent cette nouvelle architecture, ils ont des profils distincts. Déjà techniquement disponible depuis quelques mois par le biais de la recherche profonde d’OpenAI, o3 est présenté comme le modèle de raisonnement le plus puissant de la jeune pousse, excellant notamment en développement logiciel avec un score impressionnant de 56% sur le benchmark SWE-bench. Il est conçu pour les tâches les plus exigeantes. De son côté, o4-mini est optimisé pour l'efficacité. Plus rapide et moins coûteux, il parvient même à surpasser o3 dans certaines compétitions mathématiques. Cette différence se reflète dans les tarifs API : o4-mini est facturé 1,10 $ par million de tokens en entrée et 4,40 $ par million en sortie, tandis que o3 coûte 10 $ et 40 $ respectivement. Un positionnement prix agressif pour démocratiser l'accès à ces capacités avancées pour les développeurs.

Vers un ChatGPT plus autonome et orienté développeurs ?

Autant le dire, la multimodalité est le maître-mot : o3 et o4-mini à utiliser simultanément et de manière fluide l'ensemble des outils disponibles dans ChatGPT : recherche web, génération d'images, exécution de code Python, analyse de fichiers, etc. Fini le cloisonnement, l'IA peut désormais combiner ces outils au sein d'une même requête pour résoudre des problèmes complexes en plusieurs étapes. On peut imaginer demander à ChatGPT d'analyser une capture d'écran d'erreur de code, de chercher la documentation adéquate sur le web, puis de proposer et exécuter une correction via Python, le tout dans une seule interaction. Cela ouvre la voie à des assistants capables d'une plus grande autonomie.

Codex CLI, un agent IA dans le terminal pour concurrencer Claude Code - © OpenAI

Parallèlement, OpenAI lance Codex CLI. Cet agent de codage s'utilise directement depuis le terminal et permet aux développeurs d'interagir avec les modèles OpenAI pour automatiser des tâches de programmation dans leur environnement local. Surtout, il positionne OpenAI en concurrence frontale avec Claude Code d'Anthropic, un outil similaire dévoilé quelques semaines plus tôt en même temps que le modèle Claude 3.7. La différence notable est que Codex CLI est open-source (licence Apache 2.0), contrairement à son rival direct. Pour stimuler son adoption, OpenAI annonce un programme de subventions d'un million de dollars en crédits API, visant clairement à séduire une communauté de développeurs très courtisée.

Et si Sam Altman rachetait un éditeur de code pour compléter le tableau ?

L'offensive d'OpenAI ne s'arrête pas là. Des rumeurs insistantes font état de négociations pour l'acquisition de Windsurf (anciennement Codeium), une startup spécialisée dans les outils de codage IA, pour un montant qui pourrait atteindre 3 milliards de dollars. Le P.-D.G de Windsurf avait d'ailleurs fait une apparition remarquée il y a quelques jours aux côtés de l'équipe d'OpenAI lors de l'annonce de GPT-4.1. Si elle se confirmait, ce serait la plus grosse acquisition d'OpenAI à ce jour, renforçant considérablement son offre pour les développeurs. Ces mouvements interviennent dans un contexte concurrentiel très électrique.

GPT-4.1 dans Windsurf - © Clubic

L'émergence d'acteurs comme DeepSeek avec des modèles open source performants a poussé OpenAI à réagir. N'oublions pas non plus la récente remontada de Google et ses modèles Gemini qui brillent sur les benchmarks depuis le début de l'année. L'entreprise avait notamment rendu son modèle o3-mini accessible gratuitement dans ChatGPT (avec certaines limites) pour contrer cette nouvelle concurrence. o4-mini maintient cette tendance en étant lui aussi accessible pour les utilisateurs non-abonnés en sélectionnant l'option « Raisonner ».

Source : OpenAI

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025

04 février 2025 à 14h11

Comparatifs services