OpenAI vient de dévoiler son meilleur modèle, et vous ne pourrez pas l'utiliser avec ChatGPT

La firme de Sam Altman lance sa nouvelle famille de modèles GPT-4.1, surpassant GPT-4o dans presque tous les domaines avec une fenêtre contextuelle d'un million de tokens. Ironiquement, ces modèles optimisés pour le code ne seront pas accessibles via ChatGPT mais uniquement via l'API d'OpenAI.

OpenAI vient d'annoncer trois nouveaux modèles : GPT-4.1, GPT-4.1 mini et GPT-4.1 nano. Cette nouvelle gamme arrive dans un contexte hautement compétitif, alors que Google vient de présenter Gemini 2.5 Pro, DeepSeek a impressionné avec son modèle V3-0324, et qu'Anthropic poursuit sa montée en puissance avec Claude 3.7 et Claude Code.

Un modèle surpuissant exclusivement dédié aux développeurs

Le nouveau modèle GPT-4.1 excelle particulièrement dans le domaine du codage, avec une amélioration de 21% par rapport à GPT-4o et 27% par rapport à GPT-4.5 sur les benchmarks de programmation. Ces performances restent toutefois légèrement en-deçà des scores rapportés par Google pour Gemini 2.5 Pro (63,8%) et par Anthropic pour Claude 3.7 Sonnet (62,3%) sur le même benchmark SWE-bench Verified.

Les entreprises ayant eu accès aux modèles en avant-première témoignent de gains substantiels. Thomson Reuters a observé une hausse de 17% de précision pour les revues multi-documents avec son assistant CoCounsel, tandis que Carlyle a noté une amélioration de 50% dans l'extraction de données financières complexes.

Le PDG de Windsurf (un IDE augmenté à l'IA), a partagé des résultats impressionnants : GPT-4.1 réduit de 40% les lectures de fichiers inutiles par rapport aux modèles concurrents et modifie 70% moins souvent les fichiers non concernés. Une précision qui rappelle les avancées récentes d'Anthropic avec Claude Code, son agent IA spécialisé dans la génération de code.

Un million de tokens : pourquoi c'est crucial

L'avancée la plus significative de GPT-4.1 réside dans sa capacité à traiter jusqu'à un million de tokens en une seule requête. Pour mettre cette prouesse en perspective, cela équivaut à huit fois la capacité de GPT-4o (128 000 tokens) ou encore huit copies complètes du code source de React. Cette capacité transforme radicalement l'utilisation des modèles de langage dans des contextes professionnels. Les développeurs peuvent désormais analyser des bases de code entières en une seule fois, tandis que les juristes peuvent traiter simultanément de multiples documents complexes avec leurs interrelations.

Durant la démo, les ingénieurs d'OpenAI se servent de GPT-4.1 pour fouiller le log d'un NAS vieux de 1995 - © OpenAI

OpenAI a spécifiquement entraîné ces modèles pour maintenir leur fiabilité sur l'ensemble de cette fenêtre contextuelle élargie. Dans une démonstration, le modèle a pu identifier avec précision une entrée inhabituelle enfouie dans un journal serveur NASA de 15 000 tokens datant de 1995. Cette amélioration répond directement à la récente annonce de Google dont Gemini 2.5 Pro propose également une fenêtre d'un million de tokens. Cette course à l'expansion contextuelle contraste avec l'approche de DeepSeek qui, malgré son architecture MoE (Mixture of Experts) innovante, dispose d'une capacité de contexte plus limitée.

La décision de ne pas intégrer GPT-4.1 à ChatGPT marque un tournant chez OpenAI, habitué à proposer ses nouveautés en exclusivité sur son service avant de le proposer aux développeurs. Cette orientation rappelle la stratégie d'Anthropic qui délaisse son interface publique Claude au profit d'intégrations dans des applications tierces. Pour les utilisateurs, cela signifie qu'il faudra passer par des services tiers exploitant l'API GPT-4.1 pour bénéficier de ces avancées. Ces services incluent les assistants de codage comme Cursor ou Windsurf, mais aussi des moteurs de recherche comme Perplexity qui s'appuient déjà sur les modèles d'OpenAI.

Source : OpenAI

À découvrir

IA & LLM : quel modèle de langage choisir ? On fait le point

12 février 2025 à 13h42

News