La guerre des contextes : quand l’IA sait tout ce que vous savez
En deux ans, la fenêtre de contexte des modèles de langage est passée de 4 000 tokens à 10 millions. Derrière cette course aux chiffres se cache une question que personne ne pose assez fort dans les comités de direction : si une IA peut ingérer toute la mémoire d’une entreprise en une seule requête, que reste-t-il de l’avantage concurrentiel des gens qui « savent tout » ?
Cet article décortique la réalité technique derrière les chiffres marketing, puis pose la question qui dérange : les postes les mieux payés — ceux qui reposent sur une connaissance transversale accumulée pendant des années — sont-ils les plus exposés ?
Le contexte, c’est quoi exactement ?
Avant de parler de guerre, posons les bases. Quand vous discutez avec ChatGPT, Claude ou Gemini, le modèle ne « se souvient » de rien entre deux conversations. Il n’a pas de mémoire au sens humain du terme. Tout ce qu’il sait de vous, de votre question et de votre situation tient dans un seul bloc de texte qu’on appelle la fenêtre de contexte.
Imaginez une réunion où votre interlocuteur souffre d’amnésie totale. À chaque échange, vous devez lui redonner tout le contexte : qui vous êtes, de quoi on parle, ce qu’on a dit avant, les documents pertinents. La fenêtre de contexte, c’est la taille maximale de ce briefing. Plus elle est grande, plus vous pouvez lui transmettre d’information avant qu’il ne vous dise « stop, je ne peux plus rien absorber ».
Un token, c’est l’unité de mesure : en français, un token correspond à environ trois quarts d’un mot. Un contexte de 200 000 tokens, c’est l’équivalent d’un roman de 500 pages. Un million de tokens, c’est une étagère entière de livres.
Pourquoi c’est le nerf de la guerre
La taille du contexte détermine ce qu’une IA peut faire — pas seulement ce qu’elle peut dire. Avec 4 000 tokens, on pose une question simple. Avec 200 000, on lui soumet un contrat entier et on demande une analyse. Avec un million, on charge le code source complet d’une application et on lui demande de trouver un bug.
Mais le contexte ne sert pas qu’à répondre à des questions. Dans les usages professionnels émergents — les agents IA qui enchaînent des actions, utilisent des outils, consultent des bases de données — le contexte est la mémoire de travail. C’est là que l’agent stocke ce qu’il a fait, ce qu’il a trouvé, et ce qu’il doit faire ensuite. Plus la fenêtre est grande, plus l’agent peut mener des tâches complexes sans perdre le fil.
C’est pour ça que la course au contexte fait rage. Ce n’est pas un concours de vanité entre ingénieurs. C’est une course à la capacité opérationnelle des IA.
La course aux mégapixels de l’IA
De 4 000 à 10 millions de tokens en deux ans
Mi-2023, GPT-4 plafonnait à 8 000 tokens — environ 12 pages de texte. Deux ans plus tard, le paysage est méconnaissable :
- Llama 4 Scout (Meta) : 10 millions de tokens — l’équivalent de 15 000 pages, soit une bibliothèque entière de PME
- Grok 4.20 (xAI) : 2 millions de tokens
- Gemini 3.1 Pro (Google) : 1 million de tokens
- GPT-5.4 (OpenAI) : 1 million de tokens
- Claude Opus 4.6 (Anthropic) : 1 million de tokens
La progression est vertigineuse : un facteur 2 500 en deux ans. Et la courbe ne fléchit pas. Chaque trimestre, un nouveau record tombe, accompagné d’un communiqué de presse qui annonce la révolution.
Cette escalade rappelle trait pour trait la guerre des mégapixels dans la photo numérique. Entre 2003 et 2010, les constructeurs ont empilé les pixels — 5, 8, 12, 20 mégapixels — alors que la qualité d’image réelle dépendait bien davantage de la taille du capteur et de l’optique. Le marketing a gagné. Les consommateurs ont appris à comparer des chiffres plutôt que des résultats.
Avec les fenêtres de contexte, on refait exactement la même erreur.
Le mirage des chiffres : ce que les benchmarks ne disent pas
L’étude MECW (Maximum Effective Context Window) de Paulsen a jeté un pavé dans la mare : en conditions réelles, tous les modèles testés tombent à plus de 99 % en dessous de leur fenêtre annoncée. Certains échouent sur des tâches avec à peine 100 tokens de contexte utile.
Autrement dit, un modèle qui annonce 10 millions de tokens peut, selon la tâche, perdre le fil avant d’avoir lu une page.
Le phénomène le plus documenté s’appelle « Lost in the Middle ». Les chercheurs de Stanford et Berkeley ont montré que les LLM retiennent bien le début et la fin d’un contexte (85-95 % de précision), mais que tout ce qui se trouve au milieu chute à 76-82 %. Une courbe en U implacable : les informations placées au centre du document sont tout simplement oubliées.
Plus récemment, l’équipe de Chroma a formalisé le concept de « Context Rot » : en testant 18 modèles de pointe, ils ont observé que la performance se dégrade de manière imprévisible à mesure que le contexte s’allonge — surtout en présence de distracteurs, ces passages non pertinents qui diluent l’information utile.
La conclusion est contre-intuitive mais solide : 200 000 tokens bien triés valent mieux que 2 millions en vrac.
Pourquoi « plus gros » ne veut pas dire « plus intelligent »
Lost in the Middle, Context Rot : les limites structurelles
Le problème n’est pas un bug temporaire. Il est architectural. Les Transformers — l’architecture dominante depuis 2017 — reposent sur un mécanisme d’attention dont la complexité est quadratique : doubler la longueur du contexte multiplie par quatre le calcul nécessaire. C’est une loi physique, pas un choix de conception qu’on corrigera à la prochaine mise à jour.
Des alternatives émergent. Mamba, un modèle à espace d’états (SSM), traite les séquences avec une complexité linéaire et affiche un débit 5 fois supérieur aux Transformers à taille égale. Jamba (AI21) hybride Transformer et Mamba pour tenter de cumuler les avantages. Meta a inventé iRoPE pour faire grimper Llama 4 à 10 millions de tokens en s’affranchissant partiellement de l’encodage positionnel.
Ces innovations repoussent les murs, mais ne changent pas le constat : le contexte brut n’est pas de la compréhension.
Le vrai coût d’un contexte géant
L’aspect financier est rarement mis en avant dans les annonces. Pourtant, une requête à 200 000 tokens sur un modèle de pointe coûte plus d’un dollar et prend plus de deux minutes à traiter. Multipliez par les centaines de requêtes quotidiennes d’un agent IA en production, et la facture explose.
En face, une architecture RAG (Retrieval-Augmented Generation) — qui extrait uniquement les passages pertinents avant de les soumettre au modèle — revient environ 1 250 fois moins cher : 0,00008 dollar par requête contre 0,10 dollar. Et la réponse arrive en une seconde au lieu de quarante-cinq.
Le contexte géant a des cas d’usage légitimes — analyser un contrat de 300 pages d’un bloc, comparer deux bases de code entières. Mais pour 90 % des utilisations en entreprise, c’est l’équivalent de prendre un camion 38 tonnes pour aller chercher le pain.
Les alternatives qui marchent : trier plutôt qu’empiler
Le terme qui monte dans l’industrie n’est plus « prompt engineering » mais context engineering. Anthropic et Gartner convergent sur la même définition : l’art de sélectionner, structurer et hiérarchiser l’information avant de la soumettre au modèle.
La recherche confirme cette intuition. Shaped, spécialiste du ranking, l’a formulé de manière percutante : « La loi de passage à l’échelle pour les agents IA, ce n’est pas la profondeur du modèle — c’est la qualité du classement du contexte. » Leur démonstration : un modèle d’embedding de 110 millions de paramètres avec un bon algorithme de classement bat un modèle de 1 milliard de paramètres qui empile tout en vrac.
Le consensus émergent est hybride : le RAG identifie les passages pertinents, le contexte long permet de raisonner dessus. Pas l’un ou l’autre — les deux ensemble, chacun dans son rôle.
Quand le contexte illimité menace l’avantage des sachants
C’est ici que l’article quitte le terrain technique pour entrer dans un territoire plus inconfortable.
L’expertise humaine, c’est du contexte
Pourquoi un directeur général vaut-il 150 000 euros par an ? Pas pour ses compétences Excel. Parce qu’il a dans la tête vingt ans de contexte accumulé : l’historique des décisions stratégiques, les projets qui ont failli couler la boîte en 2019, les relations entre les équipes, les clients qu’il ne faut surtout pas contrarier, les fournisseurs fiables et les autres.
Un consultant senior facture 1 500 euros la journée parce qu’il a vu cinquante transformations digitales, et qu’il sait — sans pouvoir toujours l’expliquer — que tel schéma va échouer.
Un avocat d’affaires justifie ses honoraires par sa connaissance intime de la jurisprudence, des juges, des stratégies adverses accumulées au fil de centaines de dossiers.
Tous ces professionnels vendent la même chose : du contexte vécu, compressé en intuition. Et cette intuition a longtemps été irremplaçable, parce qu’aucun système ne pouvait stocker, croiser et mobiliser autant d’information en temps réel.
Le scénario qui dérange : toute l’entreprise dans une seule requête
Faisons l’exercice. Le token suit la trajectoire de l’octet : un jour, on ne le comptera plus. Ce jour-là, on pourra charger dans une seule requête :
- L’intégralité du CRM — chaque interaction client depuis la création de l’entreprise
- Tous les emails échangés, internes et externes
- L’historique complet du SAV, des réclamations, des retours
- La comptabilité, les factures, les marges par produit
- Les comptes rendus de toutes les réunions stratégiques
- Les décisions prises, les raisons invoquées, les résultats obtenus
- Le code source, la documentation technique, les incidents passés
Toute la vie de l’entreprise, ingérée et indexée. En quelques secondes.
Quand ce sera possible — et au rythme actuel, ce n’est pas une question de « si » mais de « quand » — l’argument « je suis le seul à avoir la vision transversale » ne tiendra plus. Le DG qui justifiait son salaire par sa capacité à croiser commercial, finance, technique, RH et historique se retrouvera face à un système qui fait la même chose, sans biais de mémoire, sans fatigue, sans angles morts.
Les postes les plus chers sont les plus exposés
C’est le paradoxe le plus contre-intuitif de cette révolution. On répète depuis des années que l’IA remplacera d’abord les tâches répétitives et peu qualifiées. C’est vrai pour l’automatisation classique. Mais l’explosion des fenêtres de contexte inverse la logique : ce sont les postes qui reposent sur l’accumulation de savoir transversal qui sont les plus menacés.
Le stratège, le directeur de la transformation, le consultant senior en IA, l’architecte technique qui « connaît tout le système » — leur avantage concurrentiel est précisément ce que les LLM apprennent à reproduire : synthétiser une masse d’information pour en tirer une recommandation.
L’exécutant qui pose des carreaux de carrelage ou répare une fuite est, paradoxalement, bien plus à l’abri. Son contexte est physique, sensoriel, situé. Il ne se tokenise pas.
Un utilisateur de Claude Code résumait récemment la situation avec une lucidité glaçante : « Heureusement, aujourd’hui je sers encore à quelque chose, parce que c’est moi qui oriente l’IA. » Le mot qui fait froid dans le dos, c’est « encore ».
Ce qui restera irremplaçable (probablement)
Avant de sombrer dans le fatalisme, posons les limites. Trois choses résistent structurellement à la tokenisation.
L’accountability — quelqu’un doit signer
Un LLM peut produire une recommandation stratégique brillante. Mais il ne peut pas être viré si elle échoue. Il ne peut pas être traîné en justice. Il ne met pas sa réputation en jeu.
L’accountability — la responsabilité engagée, avec des conséquences personnelles — reste un monopole humain. Et dans un monde incertain, les organisations auront toujours besoin de quelqu’un qui assume, signe et porte le risque. Cette dimension n’est pas technique : elle est juridique, sociale et profondément humaine.
Le contexte du contexte — savoir ce qui est faux
Un LLM traite toutes les données avec la même confiance. Il ne sait pas que les chiffres de Jean-Pierre sont systématiquement gonflés de 20 %. Il ne sait pas que le rapport de 2021 a été rédigé dans la panique pour rassurer les investisseurs et qu’il ne reflète pas la réalité. Il ne sait pas que le process officiel n’est suivi par personne et que le vrai fonctionnement de l’entreprise est dans les conversations de couloir.
Ce méta-contexte — savoir quelles données sont fiables, biaisées, périmées ou carrément fausses — est le produit d’années de présence et d’observation. C’est précisément ce qu’un modèle IA ne peut pas apprendre d’un export de données, aussi volumineux soit-il.
La relation — ce qui ne se tokenise pas
Un client n’achète pas un livrable. Il achète une relation avec quelqu’un en qui il a confiance. La confiance, la loyauté, la dette morale, l’histoire partagée — rien de tout cela ne se compresse en tokens.
Le commercial qui décroche un contrat parce que le client et lui ont traversé ensemble une crise en 2022 détient un avantage qu’aucune fenêtre de contexte ne reproduira. Le médecin dont le patient suit les recommandations parce qu’il le connaît depuis quinze ans possède un levier thérapeutique qu’un chatbot médical n’aura jamais.
La relation humaine n’est pas un transfert d’information. C’est un lien. Et les liens ne se tokenisent pas.
De « je sais tout » à « je décide quoi faire de ce que l’IA sait »
La vraie question n’est pas « l’humain sera-t-il remplacé ? ». Elle est plus chirurgicale que ça : l’avantage concurrentiel d’avoir beaucoup de contexte en tête justifiera-t-il encore un salaire élevé ?
Pour les dirigeants de PME et ETI, la réponse a des implications concrètes. Le collaborateur qui vaut cher uniquement parce qu’il « connaît tout » verra sa valeur relative baisser. Celui qui sait quoi faire de ce que l’IA sait — décider, arbitrer, assumer, convaincre — verra la sienne augmenter.
Le rôle de l’expert ne disparaît pas. Il mute. De « je suis le seul à détenir cette information » vers « je suis celui qui transforme l’information en décision engagée ». C’est un glissement subtil, mais il redistribue les cartes dans tous les organigrammes.
Les entreprises qui l’auront compris ne chercheront plus à embaucher des encyclopédies vivantes. Elles chercheront des gens capables de piloter l’encyclopédie — et de signer en bas de la page.

