ia

Fiabilité des IA d’information : garde-fous en urgence

Un signal d’alarme pour l’IA d’information – attention au risque décisionnel

Les entreprises s’appuient de plus en plus sur l’IA, y compris pour s’informer. Or les modèles de langage de grande taille (LLM, Large Language Models) montrent des limites critiques : leur taux d’erreurs et d’« hallucinations » progresse, exposant les organisations à des risques réputationnels et juridiques. La conséquence est immédiate : en moins de 90 jours, il faut clarifier où l’IA aide et où elle ne décide pas, déployer des métriques de fiabilité et durcir les contrats fournisseurs.

Ce que montre l’étude et pourquoi elle oblige à agir

En 2025, plusieurs travaux convergent : les réponses d’outils populaires comme ChatGPT, Gemini, Perplexity ou Copilot contiennent davantage d’inexactitudes que l’an dernier. Selon le suivi de NewsGuard, le taux de répétition de fausses informations par les principaux outils a presque doublé en un an (18 % → 35 %), à mesure que les systèmes ont privilégié la réponse systématique plutôt que la prudence NewsGuard, AI Tracking Center . Une étude coordonnée par des médias de service public a aussi relevé des problèmes majeurs dans 45 % des réponses testées, avec des erreurs de sources dans un tiers des cas (dont des attributions manquantes ou trompeuses).

Dans les faits, les performances varient selon les plateformes, mais l’écart ne change pas la tendance de fond : même les meilleurs LLM commettent encore des erreurs non négligeables, surtout sur l’actualité et les sujets controversés. La dégradation vient aussi de l’écosystème en ligne « pollué » par des sites opportunistes et des opérations de désinformation, vers lesquels les IA vont puiser sans hiérarchiser finement la fiabilité des sources. Dans le même temps, une part croissante des moins de 25 ans s’informent désormais via des assistants IA, amplifiant l’impact potentiel des erreurs Reuters Institute, Digital News Report .

Pour les directions, le message est clair : utiliser un LLM comme source d’information primaire est aujourd’hui une prise de risque, sauf à instaurer une gouvernance robuste, une vérification humaine systématique et des garde-fous contractuels.

Ce que cela change pour l’IA en entreprise

Côté conformité, la loi européenne sur l’IA (AI Act) impose un cadre par risques, avec des obligations de transparence et de maîtrise pour les modèles généralistes à risque systémique et un calendrier d’application étalé jusqu’à 2027 Commission européenne, AI Act . Le Règlement général sur la protection des données (RGPD, General Data Protection Regulation) rappelle l’exigence de justesse des données personnelles : diffuser via un LLM une inexactitude sur une personne peut engager la responsabilité, comme le montre une plainte déposée contre des réponses erronées NOYB, plainte RGPD .

Côté gouvernance, le cadre du National Institute of Standards and Technology des États-Unis (NIST, National Institute of Standards and Technology) structure la gestion des risques en quatre fonctions — Gouverner, Cartographier, Mesurer, Gérer — et fournit un profil spécifique pour le génératif NIST AI RMF . La norme de système de management de l’IA ISO/CEI 42001 (ISO/IEC 42001) propose, elle, un cadre certifiable de type « Planifier-Faire-Vérifier-Agir » pour piloter les risques tout au long du cycle de vie ISO/IEC 42001 .

Opérationnellement, trois arbitrages s’imposent.

D’abord, établir la frontière entre assistance et décision. Un LLM peut aider à explorer, rédiger, synthétiser ; il ne doit pas arrêter une position sur des faits sensibles, stratégiques, réglementaires ou personnels sans validation humaine. Ensuite, intégrer la récupération augmentée par la recherche (RAG, Retrieval Augmented Generation) pour « arrimer » les réponses sur un corpus interne de sources vérifiées — une architecture qui réduit les dérives quand le domaine est bien défini IBM, explications RAG . Enfin, imposer des métriques lisibles : taux d’hallucination par type de requête, part d’éléments sourcés, délais de vérification humaine et taux de corrections.

Côté achats, les accords de niveau de service (SLA, Service Level Agreement) internes et les contrats fournisseurs doivent cadrer : seuils d’erreurs tolérables selon l’usage, logging et traçabilité, interdiction d’utiliser les données de l’entreprise pour l’entraînement sans consentement, effacement en fin de contrat, audits réguliers et indemnités en cas de préjudice. Coté protection des données, prévoyez un accord de traitement des données (DPA, Data Processing Agreement) précisant sous-traitants, délais de notification d’incident et mesures de sécurité.

Décryptage : des améliorations réelles, mais la fiabilité reste un angle mort

La progression technique est indéniable : les meilleurs LLM réduisent le bruit, gèrent mieux le raisonnement pas-à-pas et exploitent des fenêtres de contexte géantes. Mais ces avancées ne garantissent pas l’exactitude factuelle, surtout en « temps réel ». Les bancs d’essai académiques (maths, culture générale) ne prédisent pas la tenue sur l’actualité, où la chaîne des sources, l’ambigüité des signaux et la dynamique de désinformation dominent.

La transparence des sources n’immunise pas non plus contre l’erreur : un outil fondé sur RAG peut citer des liens peu fiables si son « graphe de confiance » n’est pas contrôlé. À l’inverse, des systèmes plus prudents peuvent sous-répondre. En résumé : le choix de modèle (coût, vitesse, contexte) importe, mais la gouvernance — corpus de référence, validation humaine, seuils de stop — détermine l’usage sûr.

Le volet juridique se durcit. Au-delà du RGPD, l’AI Act prévoit des obligations de documentation, de surveillance post-déploiement et de contrôle humain pour les cas à risque. Une allégation erronée liée à une personne peut relever de la diffamation et de la protection des données. Par ailleurs, l’impact de la désinformation sur les marchés n’est pas théorique : une fausse image d’explosion au Pentagone a fait brièvement décrocher Wall Street en 2023 avant d’être démentie The Guardian . Les entreprises doivent donc prévoir une capacité de détection-réponse reputâtionnelle aussi outillée que leur veille sécurité.

Décider en 90 jours : feuille de route pragmatique

Dans les 30 premiers jours, alignez le conseil d’administration sur les risques et les gains attendus. Cartographiez tous les usages visibles et « dans l’ombre » des LLM, y compris les extensions intégrées à des outils bureautiques. Publiez une politique claire d’usage : ce que l’IA peut assister, ce qu’elle ne peut pas décider.

Entre J+31 et J+60, standardisez : fiches de modèles (données, essais, limites), revues avant déploiement, environnements approuvés avec journalisation. Déployez les premiers tableaux de bord : taux d’hallucination, couverture des sources, écarts de performance et « overrides » humains. Encadrez par des SLA internes : exactitude minimale attendue selon l’usage et délais de vérification.

De J+61 à J+90, testez et durcissez : « red team » sur prompts piégés, injections malveillantes et tentatives de jailbreak ; exercices de crise réputationnelle ; première revue trimestrielle avec indicateurs — déploiements, incidents, corrections, risques évités.

Points de vigilance :

  • Gouvernance « assistance vs décision » explicite et appliquée.
  • RAG sur un corpus interne validé, avec gestion stricte des sources.
  • Vérification humaine obligatoire pour les contenus à enjeux (juridique, médical, financier, RH).
  • Contrats : taux d’erreurs, audit, non-entraînement par défaut, effacement en fin de contrat, indemnités.
  • Conformité à l’AI Act et au RGPD : DPIA, traçabilité, supervision humaine.
  • Veille réputationnelle temps réel et scénarios de réponse.

En synthèse – limiter, mesurer, contractualiser

Les LLM ne sont pas des sources d’information fiables par défaut. Rendez-les utiles en les cantonnant à l’assistance, en mesurant leurs sorties et en organisant la vérification humaine. Complétez par des clauses contractuelles et une veille réputationnelle : vous réduisez le risque sans renoncer aux gains de productivité.

Logo carre - BGTconsult.AI

Publications similaires