« AI poisoning » est devenu un mot-valise parce qu’il sert à nommer plusieurs mécanismes incompatibles, tout en donnant l’illusion d’un diagnostic unique. Cette confusion augmente directement le risque d’attribution erronée et la dérive interprétative.
Le terme « AI poisoning » circule aujourd’hui comme une étiquette globale qui semble expliquer, à elle seule, une variété de défaillances : sorties biaisées, dérives RAG, comportements agentiques inattendus, erreurs persistantes, instabilité de réponse. Le problème n’est pas que le terme soit faux. Le problème est qu’il est trop large, trop élastique, et souvent utilisé sans préciser ce qui est empoisonné, où, et comment.
Dans un web interprété, cette élasticité a un coût : elle pousse les humains et les systèmes automatisés à reconstruire un sens implicite. Autrement dit, on ne décrit plus un mécanisme, on déclenche une inférence.
Le mot-valise comme accélérateur d’inférence
Un mot-valise est un terme qui agrège plusieurs réalités distinctes sous une même bannière. Il devient dangereux lorsqu’il est utilisé comme raccourci décisionnel : il donne un nom, donc il donne une cause, donc il donne une conclusion. Le glissement est souvent silencieux : « si c’est du poisoning, alors c’est intentionnel », ou « si c’est du poisoning, alors c’est le modèle », ou encore « si c’est du poisoning, alors il faut filtrer ».
Or, en pratique, « AI poisoning » peut référer à des surfaces d’altération différentes : données d’entraînement, corpus RAG, mémoire agentique, pipeline d’ingestion, ou confusion instruction/donnée. Mélanger ces surfaces produit des diagnostics incohérents et des contre-mesures mal orientées.
Trois confusions fréquentes
1) Poisoning ≠ injection
L’injection est une menace d’autorité qui vise la hiérarchie d’instructions : faire monter une instruction illégitime au-dessus des règles. Le poisoning vise la matière consommée comme autorité (apprise ou rappelée). Confondre les deux, c’est traiter un problème de hiérarchie comme un problème de contenu, ou l’inverse.
2) Corpus rappelé ≠ autorité apprise
En RAG, le système est contaminé par ce qu’il rappelle. En entraînement, il est contaminé par ce qu’il apprend. Les signatures, les inerties et les stratégies de gouvernance ne sont pas les mêmes. Un terme unique masque ces différences.
3) « Détection » ≠ gouvernance
Le réflexe « poisoning = détecter et filtrer » est séduisant, mais incomplet. Même avec de la détection, la question centrale demeure : qu’est-ce qui a le droit de faire autorité et sous quelles conditions une réponse est légitime. Sans bornage, la défense devient un patchwork de filtres qui ne stabilise pas la lecture.
Pourquoi le terme reste utile (si borné)
Le terme « AI poisoning » reste utile s’il est traité comme un cadre englobant et non comme un diagnostic. Pour qu’il cesse d’être un mot-valise, il doit toujours être accompagné d’une précision minimale :
- quelle surface est visée (entraînement, RAG, mémoire, pipeline)
- quel mécanisme d’effet est observé (biais, dérivation de référence, instabilité, dégradation)
- quelle conséquence interprétative est en jeu (attribution, autorité, stabilité, légitimité).
Liens doctrinaux
- Clarification : « AI poisoning » : définition, taxonomie et risques d’interprétation
- Clarification : injection de prompt
- Clarification : empoisonnement RAG
- Clarification : empoisonnement des données d’entraînement
Conclusion
Un mot-valise n’est pas seulement un problème de vocabulaire : c’est un problème de gouvernance de lecture. Dans un environnement où des systèmes reconstruisent du sens à partir de fragments, l’imprécision n’est pas neutre : elle produit des causes imaginées, des responsabilités déplacées et des remèdes mal ciblés.