Pourquoi « AI poisoning » est devenu un mot-valise | Risque interprétatif

Type : Article (risque interprétatif)

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-28

« AI poisoning » est devenu un mot-valise parce qu’il sert à nommer plusieurs mécanismes incompatibles, tout en donnant l’illusion d’un diagnostic unique. Cette confusion augmente directement le risque d’attribution erronée et la dérive interprétative.

Le terme « AI poisoning » circule aujourd’hui comme une étiquette globale qui semble expliquer, à elle seule, une variété de défaillances : sorties biaisées, dérives RAG, comportements agentiques inattendus, erreurs persistantes, instabilité de réponse. Le problème n’est pas que le terme soit faux. Le problème est qu’il est trop large, trop élastique, et souvent utilisé sans préciser ce qui est empoisonné, où, et comment.

Dans un web interprété, cette élasticité a un coût : elle pousse les humains et les systèmes automatisés à reconstruire un sens implicite. Autrement dit, on ne décrit plus un mécanisme, on déclenche une inférence.

Le mot-valise comme accélérateur d’inférence

Un mot-valise est un terme qui agrège plusieurs réalités distinctes sous une même bannière. Il devient dangereux lorsqu’il est utilisé comme raccourci décisionnel : il donne un nom, donc il donne une cause, donc il donne une conclusion. Le glissement est souvent silencieux : « si c’est du poisoning, alors c’est intentionnel », ou « si c’est du poisoning, alors c’est le modèle », ou encore « si c’est du poisoning, alors il faut filtrer ».

Or, en pratique, « AI poisoning » peut référer à des surfaces d’altération différentes : données d’entraînement, corpus RAG, mémoire agentique, pipeline d’ingestion, ou confusion instruction/donnée. Mélanger ces surfaces produit des diagnostics incohérents et des contre-mesures mal orientées.

Trois confusions fréquentes

1) Poisoning ≠ injection

L’injection est une menace d’autorité qui vise la hiérarchie d’instructions : faire monter une instruction illégitime au-dessus des règles. Le poisoning vise la matière consommée comme autorité (apprise ou rappelée). Confondre les deux, c’est traiter un problème de hiérarchie comme un problème de contenu, ou l’inverse.

2) Corpus rappelé ≠ autorité apprise

En RAG, le système est contaminé par ce qu’il rappelle. En entraînement, il est contaminé par ce qu’il apprend. Les signatures, les inerties et les stratégies de gouvernance ne sont pas les mêmes. Un terme unique masque ces différences.

3) « Détection » ≠ gouvernance

Le réflexe « poisoning = détecter et filtrer » est séduisant, mais incomplet. Même avec de la détection, la question centrale demeure : qu’est-ce qui a le droit de faire autorité et sous quelles conditions une réponse est légitime. Sans bornage, la défense devient un patchwork de filtres qui ne stabilise pas la lecture.

Pourquoi le terme reste utile (si borné)

Le terme « AI poisoning » reste utile s’il est traité comme un cadre englobant et non comme un diagnostic. Pour qu’il cesse d’être un mot-valise, il doit toujours être accompagné d’une précision minimale :

quelle surface est visée (entraînement, RAG, mémoire, pipeline)
quel mécanisme d’effet est observé (biais, dérivation de référence, instabilité, dégradation)
quelle conséquence interprétative est en jeu (attribution, autorité, stabilité, légitimité).

Liens doctrinaux

Conclusion

Un mot-valise n’est pas seulement un problème de vocabulaire : c’est un problème de gouvernance de lecture. Dans un environnement où des systèmes reconstruisent du sens à partir de fragments, l’imprécision n’est pas neutre : elle produit des causes imaginées, des responsabilités déplacées et des remèdes mal ciblés.