Anthropic lève enfin le voile sur Claude Fable 5, premier modèle issu de la famille Mythos rendu public. Plus puissant que tout ce que la startup a sorti jusqu'ici, il arrive avec des garde-fous inédits, et une facture doublée.

Anthropic avait prévenu : un modèle de classe Mythos arriverait, mais seulement quand les garde-fous seraient à la hauteur. C'est chose faite. Ce 9 juin, la startup de San Francisco lance Claude Fable 5, son modèle le plus capable jamais mis à disposition du grand public, directement dérivé de la famille Mythos qu'elle avait longtemps jugée trop risquée pour une diffusion large. Selon The Verge, le lancement est « rendu possible par de nouveaux garde-fous bloquant les réponses dans des domaines à haut risque spécifiques ». Sur le papier, c'est une promesse tenue. Dans les faits, le tableau est un peu plus contrasté.
Claude Fable 5 : des performances qui creusent l'écart sur les tâches longues
Fable 5 excelle là où ses prédécesseurs montraient leurs limites : l'ingénierie logicielle autonome, le raisonnement avancé et l'analyse visuelle. Les benchmarks confirment l'avance, mais avec une nuance importante : l'écart se creuse surtout à mesure que les tâches s'allongent et gagnent en complexité. Sur SWE-Bench Pro, le modèle atteint 80,3 % contre 69,2 % pour Claude Opus 4.8, 58,6 % pour GPT-5.5 et 54,2 % pour Gemini 3.1 Pro. Sur les tâches courtes, l'avantage se réduit à une fourchette d'un à trois points. Pas de quoi pavoiser sur toute la ligne.

En parallèle, Anthropic publie Claude Mythos 5, techniquement le même modèle sous-jacent que Fable 5, mais avec certains garde-fous levés. Accès restreint pour l'instant aux organisations déjà intégrées au programme Glasswing, avec une promesse d'élargissement progressif via un « programme d'accès de confiance » dont les contours restent vagues. Côté tarification, les deux modèles sont facturés 10 dollars par million de tokens en entrée et 50 dollars en sortie, soit le double des tarifs de Claude Opus 4.8.
Des garde-fous inédits pour un modèle à double tranchant
Le vrai sujet, c'est ce que ces garde-fous révèlent sur les capacités réelles du modèle. Anthropic bloque explicitement les réponses liées à la biologie, la chimie, la distillation de modèle et la cybersécurité. Quand Fable 5 détecte une requête dans ces zones sensibles, il passe la main à Claude Opus 4.8. La startup affirme que 95 % des sessions chez les premiers utilisateurs n'ont déclenché aucun filtre, et qu'aucun jailbreak n'a réussi sur plus de 1 000 heures de red-teaming interne.
Pourquoi tant de précautions ? Les chiffres publiés sur Mythos Preview donnent le vertige : le modèle est capable de transformer un patch logiciel en exploit opérationnel en quelques heures, contre plusieurs semaines auparavant. Sur 21 vulnérabilités du noyau Windows testées, Mythos a provoqué un écran bleu dans 18 cas, le premier exploit généré en 31 minutes à peine. Ce n'est pas anodin, et les questions autour de Mythos ne datent pas d'hier. Ce que ça dit d'Anthropic : la startup assume désormais de publier un modèle dont elle documente elle-même les capacités offensives, en pariant sur ses propres garde-fous pour contenir le risque. Un pari audacieux, et pas entièrement sans risque.
Reste à voir si ce modèle d'accès à deux vitesses, Fable 5 pour le grand public, Mythos 5 pour une liste blanche triée sur le volet, tiendra sur la durée. Anthropic a construit sa réputation sur la sécurité comme argument de vente, et le PDG Dario Amodei ne manque jamais une occasion de le rappeler. Mais entre la promesse d'un modèle « sûr par construction » et la réalité d'un système capable d'automatiser la création d'exploits cyber, la marge est mince. Et le prix doublé ne fera pas oublier la question.