Claude Opus 4.8 : agents en parallèle et plus d'honnêteté

750 000 lignes de code portées d’un langage à un autre, 99,8 % de la suite de tests qui passe, onze jours de bout en bout. C’est l’exemple qu’Anthropic met en avant pour Claude Opus 4.8, son modèle le plus capable, sorti le 28 mai. Et il dit quelque chose de plus intéressant que le score de benchmark habituel : sur les gros chantiers, le modèle ne se contente plus de répondre à une instruction à la fois. Il planifie, distribue le travail entre des dizaines d’exécutants, et se relit avant de rendre la main.

L’essentiel de la nouveauté ne tient pas dans les deux ou trois points gagnés sur les classements. Il tient dans deux changements de comportement qui modifient la façon dont on peut lui confier un travail : il gère sa propre organisation, et il est nettement moins enclin à masquer ses propres ratés.

Table des matières

Le modèle écrit son plan de bataille, puis lance ses troupes

La fonctionnalité phare arrive dans Claude Code, l’outil agentique d’Anthropic : elle s’appelle Dynamic Workflows, encore en préversion de recherche. Le principe : au lieu d’enchaîner les actions une par une dans une seule conversation, Claude rédige lui-même un script d’orchestration qui lance des dizaines à des centaines de sous-agents en parallèle. Chacun attaque le problème sous un angle, d’autres tentent de réfuter les conclusions, et le système itère jusqu’à ce que les réponses convergent. Comme le précise la documentation Claude Code, la progression est sauvegardée au fil de l’eau : un traitement interrompu reprend là où il s’était arrêté au lieu de tout recommencer.

On sort là du registre de l’assistant qui répond à une question. On entre dans celui d’un chef de projet qui découpe un chantier, répartit les tâches et contrôle le rendu. Les cas d’usage cités sont parlants : une migration de 500 fichiers, un balayage de bugs sur l’ensemble d’une base de code, une question de recherche dont les sources doivent être recoupées. C’est exactement le type de travail qu’une seule conversation n’arrivait pas à coordonner.

La contrepartie est posée noir sur blanc par Anthropic : ces traitements consomment beaucoup plus de jetons qu’une session classique. Mieux vaut commencer par des tâches cadrées avant d’ouvrir les vannes. La fonction est réservée aux offres Max, Team et Enterprise, et désactivée par défaut côté Enterprise tant qu’un administrateur ne l’a pas autorisée.

Opus 4.8 glisse quatre fois moins d’erreurs sous le tapis

Le second changement est plus discret mais probablement plus important au quotidien. Selon Anthropic, Opus 4.8 est environ quatre fois moins susceptible que son prédécesseur de laisser passer sans rien dire un défaut dans le code qu’il a lui-même écrit. Il signale aussi plus volontiers ses incertitudes et avance moins d’affirmations non étayées.

Pour qui délègue un travail à une machine, c’est l’écart entre un exécutant qui rend une copie en cachant ses doutes et un exécutant qui annote « attention, je ne suis pas sûr de ce passage ». Le premier oblige à tout revérifier. Le second indique où regarder. Cette différence de posture compte davantage qu’un gain de capacité brute : elle change le coût de la relecture. C’est aussi un correctif direct des travers de la version 4.7, qui souffrait de commentaires bavards et d’appels d’outils mal calibrés.

Un curseur entre vitesse et profondeur

Troisième nouveauté, l’effort control. On règle soi-même le niveau d’effort que le modèle met dans une tâche. Plus haut, il réfléchit plus longtemps et plus profondément. Plus bas, il répond vite et consomme moins de quota. La documentation de l’API détaille cinq paliers, de low à max, avec un niveau xhigh pensé pour les tâches longues qui s’étalent sur plus de trente minutes.

Le réglage par défaut reste high. Mais le contrôle est précieux : un classement de documents ou une réponse courte n’exigent pas la même débauche de réflexion qu’un audit de code. Pouvoir descendre le curseur, c’est arbitrer entre la facture et la finesse sans changer de modèle. Pour une équipe qui surveille sa consommation, c’est un levier de pilotage, pas un gadget.

Trois fois moins cher en mode rapide, prix standard inchangé

Côté tarif, la grille standard ne bouge pas : 5 dollars le million de jetons en entrée, 25 en sortie, comme sur Opus 4.7. La bascule se joue sur le mode rapide, où le modèle travaille à 2,5 fois la vitesse normale. Il revient désormais à 10 dollars en entrée et 50 en sortie, soit trois fois moins cher que sur les générations précédentes.

Ce détail mérite l’attention de quiconque arbitre ses coûts d’IA. Le mode rapide cessait d’être rentable au-delà d’un certain volume ; il redevient une option défendable pour les usages où la latence compte. À mettre en regard de la trajectoire inverse d’OpenAI, qui a doublé le prix de GPT-5.5 sur le long contexte quelques semaines plus tôt. Les deux éditeurs poussent leurs curseurs tarifaires dans des directions opposées.

Pour les développeurs, une dernière touche : l’API Messages accepte maintenant d’insérer des consignes système en cours de tâche, sans casser la mise en cache du contexte. De quoi ajuster le comportement du modèle en cours de route sans repayer l’amorçage à chaque fois.

Claude Opus 4.8 : les trois changements qui comptent

des centaines

de sous-agents lances en parallele sur un chantier

↓ vs 4.7

4x moins

d’erreurs de code laissees passer sans signalement

3x moins cher

en mode rapide (2,5x la vitesse normale)

Ce que ça change quand on délègue un chantier

Pris un par un, ces éléments ressemblent à une mise à jour incrémentale de plus. Mis bout à bout, ils dessinent un modèle qui s’organise seul sur les gros volumes et qui se montre plus franc sur la qualité de son propre rendu. Pour une direction technique qui hésite à confier une migration, une refonte ou un audit à un assistant, c’est précisément la combinaison qui manquait : un exécutant capable de tenir un chantier de bout en bout, et assez honnête pour dire où il a douté.

Reste la facture. Orchestrer des centaines d’agents brûle des jetons, et la fonction se cantonne pour l’instant aux offres premium en préversion. La bonne approche n’est pas de tout basculer dessus, mais de tester sur un périmètre serré avant d’élargir. Ceux qui veulent prendre la main sur ces agents sans écrire de code trouveront dans notre guide pour créer son premier agent avec Claude Code un point d’entrée concret, et notre comparatif du meilleur modèle d’IA en 2026 replace Opus 4.8 dans le paysage des alternatives.

Un chantier d’intégration IA en tête ? BGT accompagne les ETI et PME sur ce type de projet.

Voir nos solutions →