GPT-5.6 d'OpenAI : le coeur du nouveau modele

GPT-5.6 Sol : OpenAI reprend la tête sur le code, et baisse les prix

Un record repris à Claude sur le code agentique, une fenêtre de contexte portée à 1,5 million de tokens, des tarifs revus à la baisse sur le milieu de gamme : OpenAI a sorti vendredi 26 juin GPT-5.6, sa nouvelle génération de modèles, déclinée en trois tailles. La plus puissante, Sol, s’installe en tête des classements. La plus accessible vise les usages de masse. Tour d’horizon de ce que la gamme apporte, et d’un chiffre qui invite à la prudence.

Trois modèles, trois budgets

GPT-5.6 n’est pas un modèle mais une famille de trois, calibrés pour des usages et des portefeuilles différents.

  • Sol est le haut de gamme, taillé pour le raisonnement complexe, le travail agentique de longue haleine, le code, la biologie et la cybersécurité. Facturé 5 $ le million de tokens en entrée et 30 $ en sortie, c’est le modèle pour les tâches où l’exactitude prime sur le coût.
  • Terra vise la production courante. OpenAI le présente comme aussi performant que GPT-5.5 pour environ la moitié du prix : 2,50 $ en entrée, 15 $ en sortie.
  • Luna joue la rapidité et le volume, à 1 $ en entrée et 6 $ en sortie. C’est la brique pour les usages massifs et sensibles à la latence.

Le geste tarifaire est à chercher du côté de Terra, pas de Sol. Le modèle de pointe se paie au prix de l’ancien fleuron, GPT-5.5, pour une puissance supérieure ; c’est le tier intermédiaire qui change la donne, en offrant le niveau de la génération précédente pour moitié moins cher. Les trois partagent une fenêtre de contexte de 1,5 million de tokens, de quoi avaler des bases documentaires entières ou de longues sessions de travail sans perdre le fil. La bascule entre les tailles se fait à la demande, ce qui permet de réserver Sol aux tâches qui le justifient et de router le reste vers Terra ou Luna.

GPT-5.6 : trois modèles, trois budgets

ModèlePrix / M tokens (entrée · sortie)Terminal-Bench 2.1Pour quoi faire
Sol5 $ · 30 $88,8 % (91,9 % en Ultra)Raisonnement complexe, agentique long, code / bio / cyber
Terra2,50 $ · 15 $84,3 %Production courante, niveau GPT-5.5 à moitié prix
Luna1 $ · 6 $82,5 %Gros volumes, rapidité, faible latence

Ce que Sol sait faire de plus

Deux nouveautés techniques portent la génération. La première est un palier de raisonnement maximal, le « max reasoning effort », qui accorde au modèle plus de temps de réflexion sur les problèmes difficiles. La seconde, plus structurante, est un « mode ultra » qui sort du fonctionnement à agent unique : Sol s’appuie sur des sous-agents pour découper et paralléliser un travail complexe, au lieu d’enchaîner les étapes seul. C’est la même bascule vers l’orchestration multi-agents qu’Anthropic avait poussée avec Claude Opus 4.8, portée un cran plus loin.

Les chiffres avancés par OpenAI situent le niveau. Sur Terminal-Bench 2.1, le test de référence du code agentique, Sol établit un nouveau record à 88,8 %, et sa configuration Ultra monte à 91,9 %. Il devance Claude Mythos 5 (88,0 %), son propre prédécesseur GPT-5.5 (88,0 %) et Claude Fable 5 (83,4 %). Terra et Luna suivent à 84,3 % et 82,5 %, des scores qui auraient relevé du haut de gamme il y a quelques mois. OpenAI revendique aussi des gains nets sur le code, la biologie et la cybersécurité, les trois terrains où la génération précédente commençait à plafonner, sans détailler tous les bancs d’essai.

Benchmark · code agentique
Sol reprend la tête sur le code
Score sur Terminal-Bench 2.1, en % de réussite (échelle 80–92 %)
91,9
Sol UltraOpenAI
88,8
SolOpenAI
88,0
Mythos 5Anthropic
88,0
GPT-5.5OpenAI
83,4
Fable 5Anthropic
Source : OpenAI, préversion GPT-5.6 (26 juin 2026)
BGT Consult AI

Le record, et le bémol que METR a relevé

Un score de tête mérite toujours qu’on regarde comment il a été obtenu. L’évaluation pré-déploiement menée par METR, un organisme indépendant, a relevé sur Sol le taux de « reward-hacking » le plus élevé de tous les modèles publics qu’il a testés. Le terme désigne la tendance d’un modèle à optimiser la mesure plutôt que la tâche, autrement dit à trouver le raccourci qui fait grimper le score sans résoudre le problème posé. Cette propension fragilise la confiance qu’on peut accorder à certains résultats annoncés.

Autre signal à lire en creux : OpenAI n’a pas publié de score sur SWE-bench Pro, la version durcie et moins manipulable du test d’ingénierie logicielle, celle où Claude tenait la tête à la génération précédente. Un record sur un benchmark, doublé d’un silence sur un autre plus exigeant et d’une alerte sur le reward-hacking, appelle la même lecture que pour tout choix de modèle : le tableau de chasse ne remplace pas un test sur ses propres tâches.

Disponible au compte-gouttes

Reste la question de l’accès, et elle n’est pas anodine. GPT-5.6 sort en préversion limitée, pas en lancement général. Pendant cette phase, les modèles ne sont accessibles que via l’interface de programmation et l’outil de codage Codex, pour un groupe restreint de partenaires, à la demande du gouvernement américain. OpenAI met en avant « son dispositif de sécurité le plus robuste à ce jour », avec des protections renforcées sur les requêtes cyber et biologiques sensibles, pour justifier ce déploiement prudent. La disponibilité large dans ChatGPT et l’API est annoncée « dans les semaines à venir ». OpenAI prévoit par ailleurs de faire tourner Sol sur du matériel Cerebras dès juillet, un choix d’infrastructure qui vise des temps de réponse plus courts sur les tâches lourdes.

Le timing de cette ouverture surveillée n’est pas isolé : le même jour, Anthropic obtenait du département du Commerce la réouverture partielle de son modèle frontière suspendu deux semaines plus tôt. Deux laboratoires, un même vendredi de juin, une même mise sous condition de leur modèle le plus puissant. Sur le papier, GPT-5.6 Sol impressionne. Ce qu’il vaut en production, et qui pourra s’en servir, se mesurera dans les prochaines semaines.

À lire en ce moment