Claude Opus 4.7 sort, mais Anthropic garde Mythos au chaud

Anthropic a annoncé le 16 avril la sortie de Claude Opus 4.7, son nouveau modèle de pointe. La communication officielle met en avant un bond de 13 % sur les tests de programmation, trois fois plus de tâches de production résolues que la version précédente, et un niveau de vision qui grimpe à 3,75 mégapixels. Les chiffres sont solides. Mais dans la même communication, Anthropic reconnaît que ce modèle n’est pas le meilleur dont le laboratoire dispose : Claude Mythos, présenté la veille lors du lancement de Project Glasswing, reste confiné à cinquante partenaires sécurité et ne sera pas diffusé au grand public. Opus 4.7 arrive donc avec une étiquette « deuxième choix » assumée. Pour les équipes qui paient un abonnement Claude ou qui s’en servent via l’interface de programmation, la question devient intéressante : faut-il basculer, et qu’est-ce qu’on reçoit en échange ?

Table des matières

Le saut en code tient la rampe, pas juste la plaquette marketing

Sur CursorBench, Opus 4.7 atteint 70 % contre 58 % pour Opus 4.6, soit douze points d’écart sur une batterie de tests qui simule du travail de développement appliqué. Sur SWE-bench Pro, un autre test de référence qui mesure la résolution de tickets issus de dépôts open source, le modèle décroche 64,3 % et passe devant GPT-5.4 (57,7 %) et Gemini 3.1 Pro. Le différentiel le plus parlant reste le triplement annoncé du nombre de tâches de production résolues : là où Opus 4.6 se perdait après deux ou trois heures de travail continu, la nouvelle version tient la distance sur des projets qui s’étendent sur la demi-journée. Anthropic évoque des cycles « d’heures en heures » sans que le modèle perde le fil.

Ce point compte pour les équipes techniques qui délèguent de vraies sessions de travail à un modèle, pas seulement des réponses ponctuelles. Nous avons basculé sur Opus 4.7 pendant la rédaction de cet article, quelques heures seulement après son activation. La différence de tenue sur un projet long est tangible : moins de pertes de contexte, moins besoin de rappeler les instructions de départ, meilleure capacité à vérifier ses propres sorties avant de rendre un livrable.

Task budgets et xhigh : deux leviers nouveaux pour éviter les dérapages

Deux nouveautés fonctionnelles arrivent avec cette version. La première, les task budgets, sort en version bêta publique. Le principe : on donne au modèle une enveloppe de jetons pour boucler toute une boucle agentique, incluant la réflexion, les appels d’outils, les retours d’outils et la production finale. Le modèle voit son compteur s’écouler en continu et adapte sa méthode en fonction. Au lieu de partir tête baissée et de s’épuiser à mi-chemin, il apprend à prioriser, à conclure proprement, à boucler les parties essentielles avant la production finale.

La seconde nouveauté, baptisée xhigh, s’intercale entre les niveaux d’effort existants high et max. Anthropic recommande de démarrer toute tâche de programmation ou d’agent autonome sur ce palier, et de réserver max aux cas les plus exigeants. Les profils non-développeurs qui utilisent Claude via Claude.ai verront ces paramètres apparaître progressivement dans l’interface.

La tarification ne bouge pas, ce qui change le calcul

Prix inchangé par rapport à Opus 4.6 : 5 dollars par million de jetons en entrée, 25 dollars en sortie. Comparé à GPT-5.4 et à Gemini 3.1 Pro, Opus 4.7 reste dans la fourchette haute du marché, mais la progression de qualité justifie le positionnement pour les équipes qui s’appuient dessus au quotidien.

Pour une société qui dépense 500 à 1 500 euros par mois sur l’interface de programmation Claude, la bascule ne demande aucun effort commercial : le modèle est disponible aujourd’hui sur tous les canaux Anthropic, ainsi que sur Amazon Bedrock, Google Cloud Vertex AI et Microsoft Foundry. Il suffit de changer l’identifiant de modèle dans les appels. Pour les équipes qui utilisent Claude Code, l’activation est automatique : c’est Opus 4.7 qui devient la version par défaut des projets complexes.

La concession sur Mythos en dit long sur la stratégie Anthropic

Anthropic reconnaît, dans sa communication officielle, qu’Opus 4.7 reste en retrait par rapport à Claude Mythos. Le laboratoire a choisi de verrouiller Mythos pour éviter que ses capacités offensives en cybersécurité tombent entre de mauvaises mains. Ce choix a deux conséquences concrètes pour les utilisateurs.

La première, c’est une sécurité collective accrue : les vulnérabilités critiques détectées par Mythos circulent d’abord chez les géants du consortium Glasswing, qui publient les correctifs avant que la technique ne se diffuse. La seconde, plus directe pour les équipes, c’est que celles qui espéraient un saut de génération devront patienter. Opus 4.7 représente une progression significative, pas une rupture. Les cas d’usage qui auraient eu besoin des capacités de Mythos – audit de code exhaustif, détection de failles à grande échelle, rétro-ingénierie – restent hors de portée.

Trois réflexes à avoir dès cette semaine si on paie pour Claude

Pour les équipes qui utilisent déjà Claude dans leurs flux de travail :

Basculer Opus 4.7 en version par défaut sur les projets de programmation et les tâches agentiques longues. Le gain de tenue sur la demi-journée vaut le basculement, même si le modèle fera moins bien sur des prompts courts où Opus 4.6 suffisait déjà.
Tester task budgets sur un projet agentique pilote. La plupart des dérives de facturation qu’on observe viennent de modèles qui tournent en boucle sans conscience de leur consommation. Donner une enveloppe explicite change le comportement du modèle.
Ne pas remonter xhigh en max par réflexe. Le palier intermédiaire a été calibré pour couvrir 80 % des cas de programmation, et le différentiel de coût entre xhigh et max peut doubler la facture mensuelle pour un gain marginal sur la plupart des tâches.

Pour les équipes qui n’ont pas déployé Claude en production, Opus 4.7 ne change pas l’analyse : le choix entre Claude, GPT et Gemini repose d’abord sur l’intégration dans votre environnement existant, pas sur les trois points de benchmark de différence. Mais pour celles déjà abonnées, cette version justifie un test immédiat.