Une IA de pointe dangereuse, retenue sous controle par des barrieres

IA trop dangereuse : ce que savent faire les modèles sous clé

|

En quelques semaines, les deux laboratoires d’IA les plus avancés ont chacun placé leur modèle le plus puissant sous surveillance. Anthropic a gardé Mythos en cercle fermé, a ouvert au public sa version dérivée Fable 5 le 9 juin, puis a dû la couper trois jours plus tard sur ordre du gouvernement américain. Le 26 juin, OpenAI dévoilait GPT-5.6 Sol en accès filtré, lui aussi à la demande de Washington. Derrière les gros titres « trop dangereux pour le public », une question reste sans réponse claire : ce dont ces modèles sont capables, et ce qu’on perd à les enfermer. Car au-dessus du top 5 des modèles qu’on recommande pour un usage professionnel, il existe désormais une classe de modèles que vous ne pouvez tout simplement pas acheter.

Ce n’est plus un caprice d’Anthropic

L’histoire a longtemps tenu en un nom, Anthropic, et un modèle, Mythos, jugé assez puissant pour rester confiné à une cinquantaine de partenaires vérifiés. On pouvait y voir une posture marketing. Les faits récents racontent autre chose. Quand Anthropic a publié Fable 5, le département du Commerce a ordonné, par une directive de contrôle à l’export sur fondement de sécurité nationale, d’en couper l’accès à tout ressortissant étranger. L’entreprise a tout débranché, faute de pouvoir cloisonner ses utilisateurs à temps. Au 30 juin, Mythos est rouvert à une centaine de partenaires de confiance, mais Fable 5 reste suspendu pour le grand public.

Le même schéma s’est rejoué chez le concurrent direct. Le nouveau modèle de pointe d’OpenAI, GPT-5.6 Sol, est sorti en préversion verrouillée, accessible uniquement à un groupe restreint, sur demande gouvernementale. Deux laboratoires rivaux, le même mois, le même réflexe. Et une réglementation se met en place autour : un décret présidentiel américain organise un accès gouvernemental anticipé aux modèles frontière, tandis que l’AI Act européen impose des obligations renforcées dès qu’un modèle dépasse un seuil de puissance de calcul. La retenue est devenue une catégorie à part entière, pas une exception.

La cyber, c’est l’exemple qu’on montre, pas toute l’histoire

Quand on explique pourquoi ces modèles inquiètent, on cite toujours la même chose : la cybersécurité. C’est l’angle de la course aux IA capables de trouver des failles, et il est spectaculaire. Mais c’est l’arbre qui cache la forêt. Les cadres de sûreté publiés par les laboratoires, la Responsible Scaling Policy d’Anthropic, le Preparedness Framework d’OpenAI, le Frontier Safety Framework de Google DeepMind, listent tous la cyber comme une catégorie de risque parmi quatre. Les trois autres sont moins racontées, et au moins aussi lourdes.

La première, c’est le risque biologique et chimique. C’est lui, pas la cyber, qui a déclenché le premier durcissement sérieux de l’industrie : en mai 2025, Anthropic activait pour la première fois son niveau de protection ASL-3 sur Claude Opus 4, faute de pouvoir exclure que le modèle aide un acteur peu qualifié à concevoir une arme biologique. Dans un test mené par le laboratoire, des participants non-experts assistés du modèle obtenaient un plan d’acquisition deux fois et demie meilleur que sans lui. La deuxième catégorie, c’est l’autonomie : la capacité d’un modèle à mener seul de longues tâches, voire à accélérer la recherche en IA elle-même, ce que les labos traitent comme un risque de perte de contrôle. La troisième, c’est la manipulation : dans des évaluations dédiées, certains modèles se classent déjà parmi les humains les plus persuasifs, et ont montré, en conditions de test, des comportements de tromperie. Ces évaluations sont conçues pour provoquer ces réactions, et ne reflètent pas un usage normal. Mais elles existent, documentées, et n’ont rien à voir avec le piratage.

Les quatre risques qui font brider un modèle

CatégorieCe qui est évaluéCe qui est documenté
CybersécuritéDécouvrir et exploiter des faillesMythos : 1 000+ vulnérabilités critiques, dont une faille restée 27 ans invisible (selon Anthropic)
Biologique & chimiqueAider à concevoir une armeAnthropic active le niveau ASL-3 sur Opus 4 ; plan d’acquisition ×2,5 meilleur pour des novices assistés
Autonomie & auto-améliorationAgir seul sur de longues tâches, accélérer la R&D en IADurée de tâche menée en autonomie qui double tous les ~7 mois (METR)
Manipulation & tromperiePersuasion de masse, comportements trompeursModèles classés parmi les humains les plus persuasifs ; tromperie observée en conditions de test

À quel point ces modèles sont puissants

Reste la question que les communiqués évitent : peur marketing, ou capacité au-dessus de l’expert humain ? La réponse honnête est : les deux, à condition de séparer les preuves. Le chiffre le plus cité, le millier de vulnérabilités critiques que Mythos aurait débusquées, dont une faille restée invisible vingt-sept ans dans un système réputé pour sa rigueur, vient d’Anthropic seul, sans audit tiers exhaustif. À manier avec prudence, donc.

D’autres preuves, elles, sont indépendantes et difficiles à contester. L’organisme METR mesure la durée des tâches qu’un modèle accomplit seul avec une fiabilité de un sur deux : cette durée double tous les sept mois environ, et le rythme s’accélère. À l’Olympiade internationale de mathématiques 2025, des modèles ont atteint le niveau de la médaille d’or en conditions réelles, là où soixante-sept candidats humains sur six cent trente y parvenaient. Lors d’une compétition de cyberdéfense de la DARPA, des systèmes autonomes ont trouvé dix-huit failles zero-day inédites pour environ cent cinquante dollars par tâche. Sur plusieurs jeux de tests de biologie, les meilleurs modèles dépassent désormais la base de référence des experts humains. La capacité est avérée, mesurable, et en accélération. Ce qui relève du marketing, c’est l’agrégation : empiler le démontré indépendamment, le démontré par l’éditeur et le slogan dans un même récit « surhumain partout ».

Ce qu’on raterait si ça restait sous clé

Le cœur du sujet est là, et il dérange les deux camps. La même capacité qui fait peur est celle qui soigne et qui défend. L’illustration la plus nette vient d’un travail publié dans la revue Science à l’automne 2025 : des chercheurs de Microsoft ont montré que les outils d’IA de conception de protéines, ceux-là mêmes qui dessinent des médicaments, pouvaient reformuler une toxine connue pour franchir les filtres de biosécurité, avant de corriger ces filtres. La frontière entre l’arme et le remède ne se range pas proprement : c’est le même savoir.

A retenir

Le paradoxe à retenir

La capacité qui inquiète et celle qui soigne sont la même. L’IA qui sait reformuler une toxine pour franchir les filtres de biosécurité est celle qui conçoit des médicaments et a valu un prix Nobel de chimie. On ne désactive pas l’une sans toucher l’autre.

Or ce savoir a déjà transformé la recherche. La prédiction de la structure des protéines par IA a valu un prix Nobel de chimie en 2024 et sert aujourd’hui des millions de chercheurs, notamment sur la résistance aux antibiotiques. D’autres systèmes ont découvert des centaines de milliers de matériaux stables nouveaux, ou battu un record vieux de cinquante-six ans en multiplication de matrices. Côté défense, la même aptitude à trouver des failles permet de sécuriser sa propre infrastructure à grande échelle : c’est tout le pari des programmes qui arment les défenseurs avant les attaquants. Trop brider a donc un coût rarement nommé : on a vu des modèles refuser des requêtes de biologie structurale parfaitement légitimes, et des chercheurs se retrouver bloqués par des garde-fous trop larges. Le danger existe, et personne de sérieux ne le minimise. Mais l’enfermement total étouffe aussi le côté utile de la même pièce.

À quoi ces modèles serviront dans votre entreprise

La capacité qui inquiète a un versant directement exploitable, et il devient palpable. Le premier terrain est la cyberdéfense. La même aptitude à trouver des failles permet de retourner l’arme en bouclier : un agent qui surveille en continu votre propre code et votre infrastructure, repère les vulnérabilités avant les attaquants et génère les correctifs. Les premiers systèmes de ce type détectent déjà près de neuf failles sur dix sur des bases réelles, et tournent en continu, sans fatigue ni angle mort.

Le deuxième terrain, c’est l’agent qui tient la distance. Un modèle capable de mener seul une tâche complexe pendant des heures, sans qu’on le reprenne en main, ouvre l’automatisation de travaux experts qui résistaient jusqu’ici : migrer un système entier, auditer une base de code, synthétiser des milliers de documents, conduire une analyse de bout en bout. C’est exactement l’autonomie longue que les laboratoires mesurent et qui s’allonge de mois en mois. Le troisième touche la matière grise elle-même : une relecture juridique ou scientifique au niveau d’un expert, l’accélération de la découverte de matériaux ou de molécules, l’optimisation de procédés que personne n’avait su améliorer depuis des années.

Comment y accède-t-on ? Aujourd’hui, le tout dernier cran reste réservé à des cercles vérifiés. Mais l’histoire récente est sans ambiguïté : la capacité de pointe d’hier devient le modèle commercial d’aujourd’hui, accessible via une clé d’API. L’intérêt n’est donc pas d’attendre le modèle débridé, c’est de repérer dès maintenant les processus où cette puissance change l’économie de la tâche, de choisir le bon point d’entrée, et de construire l’intégration pendant que les concurrents commentent les gros titres. Ce qui est déjà disponible suffit largement à commencer, et prendre les devants se joue moins sur l’accès au modèle que sur la façon dont on le branche à ses données et à ses processus.

Le signal de fond, lui, ne bougera pas : la capacité monte vite, son accès se politise, et le « trop dangereux » d’aujourd’hui est souvent le standard de demain. Savoir où passe cette ligne, et à quelle vitesse elle se déplace, devient un paramètre de veille à part entière pour quiconque mise sérieusement sur l’IA.

En pratique chez BGT

Cet article s’appuie sur des déploiements IA réels en PME et ETI. Si vous préparez le vôtre, autant en parler avec une équipe dont c’est le métier.

Voir nos solutions IA générative →

À lire en ce moment