IA d’entreprise : peut-on se passer du cloud ?
Un choix d’architecture… et de gouvernance
Pour une entreprise, l’ia (intelligence artificielle) n’est pas seulement une technologie ; c’est une décision de gouvernance sur la performance, la confidentialité, le coût et la conformité. La question revient souvent à ceci : pour des services fondés sur des grands modèles de langage (LLM, Large Language Model), peut-on se passer du cloud (infrastructure externalisée) et traiter ou stocker les données « chez soi » ? Techniquement, la réponse est oui. En pratique, cela implique des arbitrages sur l’hébergement, sur le type de modèle (généraliste ou spécialisé), et sur la manière de piloter le risque réglementaire. Nous éclairons ici ces choix à partir de sources récentes.
Trois voies techniques : internaliser, hybrider, externaliser
Dans le cas du On-premise (sur site), les serveurs, le stockage et les cartes de calcul (GPU) sont sous contrôle direct de l’entreprise. L’avantage réside dans la souveraineté et la maîtrise des flux. Les inconvénients tiennent à l’investissement initial, à l’exploitation et au renouvellement du matériel. Les comparaisons de coût total de possession (TCO) publiées en 2025 indiquent qu’une charge soutenue et prévisible peut rendre l’on-premise plus compétitif sur trois à cinq ans, une fois l’amortissement intégré. Lenovo Press
Dans le cloud public ou privé, l’entreprise loue des ressources. Elle bénéficie d’un démarrage rapide et d’une élasticité quasi immédiate, au prix d’une dépendance au fournisseur et d’exigences fortes en matière de gouvernance des données. Les progrès récents des moteurs d’inférence et des modèles « mini » ont, par ailleurs, réduit le coût par requête côté cloud. Reuters
La voie hybride/edge combine les deux approches. Les données sensibles ou les traitements récurrents restent locaux ; les pics de charge, les entraînements ponctuels et les cas non sensibles partent dans le cloud. Ce compromis s’impose souvent lorsque l’entreprise veut à la fois maîtriser la donnée et conserver de l’agilité. Les améliorations de performance côté moteurs (par exemple vLLM) ont montré que des serveurs bien configurés peuvent servir des modèles modernes avec un bon débit et une latence contenue. vLLM Blog
Où l’on-premise a du sens : usages concrets
Les équipes juridiques, M&A ou R&D tirent parti d’un LLM local lorsqu’elles manipulent des documents confidentiels qui ne doivent pas quitter l’infrastructure interne. Les opérations industrielles préfèrent souvent un traitement local pour garantir une latence faible et la continuité d’activité. Les fonctions support (IT, RH, achats) exploitent des assistants documentaires internes, avec traçabilité des accès. Enfin, dans les secteurs régulés, la localisation des données et l’auditabilité orientent vers des environnements locaux ou vers des offres de frontière de données limitées à l’Union européenne. AP News
Des bénéfices mesurables… sous conditions
Sur les coûts, les analyses TCO de 2025 montrent que le cloud reste pertinent pour les usages intermittents, mais que l’on-premise peut devenir plus économique lorsque l’utilisation est élevée et régulière. L’essentiel consiste à raisonner en coût unitaire par requête et en taux d’utilisation des ressources, plutôt qu’en simple prix catalogue. Lenovo Press
Sur les performances, les moteurs d’inférence récents ont progressé. En 2024, l’équipe vLLM rapportait jusqu’à 2,7× d’augmentation de débit et une forte réduction de la latence par rapport à la version précédente, ce qui améliore l’expérience et la facture par usage lorsque l’environnement est correctement dimensionné. vLLM Blog
Sur la conformité, l’Union européenne a adopté en 2024 le Règlement européen sur l’intelligence artificielle (AI Act). Ce texte, désormais en vigueur, impose une documentation des risques, une traçabilité et, pour certains systèmes, des obligations renforcées. Pour un dirigeant, l’AI Act constitue un cadre de pilotage : gouvernance, contrôles, registres et information des utilisateurs doivent être pensés dès la conception. EUR-Lex
Sur la souveraineté des données, plusieurs fournisseurs ont élargi leurs offres européennes. Microsoft indique avoir achevé son EU Data Boundary en 2025, avec maintien des traitements au sein de l’UE et du personnel européen pour la maintenance. Cette avancée améliore la résidence des données, mais n’annule pas la portée des lois extra-territoriales américaines, ce qui rappelle l’importance d’une évaluation juridique au cas par cas. The Official Microsoft Blog+2AP News+2
Choisir son modèle : généraliste « taille XL » ou spécialisé/compact ?
Le choix du type de modèle pèse autant que le choix d’hébergement.
Un LLM généraliste couvre un grand nombre de tâches, mais il consomme davantage de calcul et a tendance à produire des réponses plus longues. À l’inverse, un modèle spécialisé/compact (souvent appelé SLM, Small Language Model) cible un domaine ou un périmètre d’instructions et délivre une réponse correcte avec moins de jetons, moins d’étapes de raisonnement et, au final, moins d’énergie. Plusieurs synthèses publiées entre 2024 et 2025 montrent que, sur des tâches précises, des SLM de 1 à 8 milliards de paramètres peuvent égaler, voire dépasser, des modèles plus grands. arXiv+1
Cette orientation rejoint une tendance du marché : les modèles “mini” proposés par des éditeurs majeurs ont tiré les prix par million de jetons vers le bas tout en conservant une qualité acceptable pour des cas d’usage bien bornés. Cette baisse rend l’économie unitaire (coût par requête) plus prévisible. Reuters
Sur le plan environnemental, des travaux présentés en 2025 recommandent de suivre un indicateur énergie par jeton pour piloter les choix d’architecture et de modèle. La taille du modèle, la longueur des réponses et l’activation de chaînes de raisonnement longues influencent directement la consommation. Un portefeuille centré sur des SLM, couplés à de bonnes pratiques de prompt et de longueur de sortie, réduit l’empreinte et la facture. euromlsys.eu+1
Comment obtenir un modèle spécialisé efficace
L’affinage (fine-tuning) permet d’ajuster un modèle sur des données de l’entreprise afin d’améliorer le respect des consignes et des formats. La recherche augmentée (RAG, Retrieval-Augmented Generation) consiste à laisser le modèle aller chercher, au moment de répondre, les passages pertinents dans vos documents. Une étude de 2024, assortie de ressources Microsoft, compare ces approches : le RAG limite les coûts d’entraînement et favorise la mise à jour de la connaissance ; l’affinage consolide des comportements stables dans un périmètre précis. Des approches hybrides comme RAFT combinent les deux. arXiv+1
Et si l’on veut de la polyvalence sans payer « plein tarif » à chaque requête ?
Les architectures à mélange d’experts (Mixture of Experts, MoE) activent uniquement une partie du réseau selon la requête. Elles offrent de la capacité sans faire tourner tous les « experts » à chaque fois. Des travaux acceptés à NeurIPS 2024 décrivent des optimisations d’inférence (gating dynamique, « expert buffering », équilibrage de charge) qui réduisent la latence et l’empreinte mémoire, au prix d’une complexité d’ingénierie plus élevée. Pour une entreprise, l’intérêt réside dans la polyvalence à coût moyen maîtrisé lorsque l’exécution est bien optimisée. proceedings.neurips.cc+1
Mise en œuvre (version dirigeant) : les spécificités qui comptent
Renoncer au « tout-cloud » ne signifie pas tout reconstruire en interne. L’enjeu consiste d’abord à séquencer les décisions pour réduire le risque sans freiner l’innovation, tout en intégrant le choix généraliste vs spécialisé.
Prérequis techniques et organisationnels
L’entreprise doit disposer d’une capacité locale minimale : des serveurs équipés de GPU (processeurs spécialisés pour le calcul parallèle), d’un stockage chiffré rapide et d’un réseau interne fiable. Elle doit, surtout, réunir une petite équipe avec trois responsabilités claires : un pilotage IA qui hiérarchise les cas d’usage et suit le budget, un référent données/conformité qui tient les registres RGPD et les politiques de rétention, et une exploitation qui garantit la disponibilité et surveille la performance et les coûts unitaires.
De l’essai à la production
L’entreprise peut lancer un prototype fermé sur un SLM spécialisé (éventuellement couplé à du RAG) en parallèle d’un modèle généraliste, puis comparer objectivement la qualité, la latence, le coût par requête et, si possible, l’énergie par jeton. Elle peut ensuite ouvrir un pilote à un service réel (assistance interne, recherche documentaire) avec des accès nominatifs, du chiffrement et une journalisation des requêtes anonymisée lorsque des données personnelles sont en jeu. Enfin, lors de la montée en puissance, il devient pertinent de basculer par défaut sur le modèle le plus économe et de réserver le « gros » modèle aux requêtes hors périmètre, grâce à un routeur. Cette logique maintient la souveraineté (données locales ou au sein de l’UE) tout en gardant une soupape de capacité. euromlsys.eu+1
Arbitrages techniques et économiques
L’internalisation renforce la souveraineté et stabilise les coûts unitaires lorsque l’usage est élevé ; l’externalisation accélère le démarrage et la montée en charge. Une approche hybride reste souvent la plus pragmatique. Le choix open source vs propriétaire oppose la transparence et la flexibilité à la facilité de départ. Le choix local vs “frontière de données UE” dépend du niveau de sensibilité et des contraintes contractuelles avec les clients. AP News
Conformité (RGPD, AI Act) : ce qui change vraiment
L’AI Act encadre la gestion des risques, la documentation et, selon les cas, l’information ou les obligations renforcées. Les entreprises qui documentent déjà leurs jeux de données, leurs tests et leurs incidents prennent de l’avance. Par ailleurs, les transferts hors UE restent possibles vers des organismes américains certifiés dans le cadre du Data Privacy Framework, mais ils supposent de conserver une logique de minimisation et de contrôle d’accès. EUR-Lex+1
Combien cela coûte-t-il vraiment ?
La bonne question n’est pas « cloud ou pas », mais le coût par usage utile sur 24 à 60 mois, en intégrant le choix de modèle. À court terme, le cloud reste pertinent grâce à l’absence d’investissement initial et à l’apparition de modèles « mini » très abordables. À moyen terme, lorsque la charge devient stable, un on-premise correctement dimensionné, couplé à des SLM et à de bonnes pratiques d’inférence, peut passer devant. Les résultats dépendent du taux d’utilisation réel des ressources et des optimisations de déploiement. Reuters+1
Limites à ne pas sous-estimer
L’investissement initial peut être élevé, la montée en charge plus lente qu’en cloud, la maintenance et l’obsolescence matérielle exigent une discipline budgétaire, et la complexité réglementaire augmente lorsque plusieurs juridictions sont concernées. Enfin, la dispersion des modèles sans gouvernance produit claire dégrade vite la qualité et les coûts.
En synthèse : l’indépendance, oui — mais pilotée et bien dimensionnée
Une entreprise peut se passer du cloud pour des LLM, surtout lorsque les données sont sensibles et les usages intensifs et prévisibles. Faut-il s’en passer ? Pas toujours. La trajectoire la plus robuste reste progressive : prototyper en interne, cadrer la gouvernance des données, tester en parallèle un grand modèle et un SLM spécialisé, mesurer la qualité, la latence, le coût par requête et l’énergie par jeton, puis réserver le cloud aux pics ou à l’entraînement massif. Le hybride, associé à un portefeuille de modèles où le SLM sert par défaut et le grand modèle n’intervient qu’à bon escient, permet de garder la valeur et la donnée sous contrôle… sans sacrifier l’agilité.
Sources
- AI Act — texte officiel (2024). EUR-Lex
- TCO on-prem vs cloud (GenAI) — note Lenovo Press (2025). Lenovo Press
- vLLM — amélioration du débit et de la latence (09/2024). vLLM Blog
- EU Data Boundary — annonces et presse (2024–2025). AP News+1
- SLM (surveys 2024–2025) — deux synthèses académiques. arXiv+1
- Coût par jeton et énergie — EuroMLSys 2025 ; ML.ENERGY (2025). euromlsys.eu+1
- RAG vs Fine-tuning ; RAFT — étude 2024 et ressources Microsoft. arXiv+1
Liens utiles (accès direct) :
– Règlement (UE) 2024/1689 – AI Act (EUR-Lex)
– On-premise vs cloud – TCO GenAI (Lenovo Press, 2025)
– vLLM – mise à jour performance (09/2024)
– EU Data Boundary – article AP / blog Microsoft • Blog Microsoft (02/2025)
– SLM Survey 2024 • SLM Survey 2025
– Energy-per-Token (EuroMLSys 2025) • ML.ENERGY Benchmark 2025
– RAG vs Fine-tuning (2024) • RAFT (Microsoft, 2024)

