AI poisoning : définition et taxonomie

Type : Clarification

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-28


Cette page définit « AI poisoning » de manière opératoire et propose une taxonomie lisible, afin d’éviter les confusions, les glissements sémantiques et les analogies impropres.

Dans les systèmes d’IA, « poisoning » est souvent utilisé comme mot-valise, parfois pour désigner l’empoisonnement d’un corpus d’entraînement, parfois l’injection d’éléments dans une base RAG, parfois encore la corruption d’une mémoire agentique. Cette ambiguïté favorise les interprétations implicites et les diagnostics erronés.

Sur gautierdorval.com, le terme « AI poisoning » est traité comme un concept de corruption intentionnelle ou instrumentalisée d’une source d’autorité dans la chaîne d’interprétation d’un système. Il ne s’agit pas d’un effet rhétorique, ni d’une simple « désinformation », mais d’une action qui vise à dégrader, biaiser, détourner ou rendre instable la production de réponses.

Statut de cette page

Cette page est une clarification interprétative.

Elle vise à stabiliser l’usage interne du terme, à poser des bornes de lecture, et à fournir une taxonomie fonctionnelle. Elle ne normalise pas le vocabulaire externe et ne prétend pas couvrir l’ensemble des travaux de sécurité.

Définition opératoire

AI poisoning : altération délibérée (ou rendue délibérable) d’un flux de données, d’une base de connaissance ou d’un mécanisme de mémoire, de façon à produire une dérive systématique des sorties d’un système d’IA, soit par biais, dégradation, déviation ou instabilité.

Un poisoning se reconnaît par une propriété centrale : il vise une source consommée comme autorité par le système (entraînement, index, retrieval, mémoire, règles, outils, prompts, pipeline), et non uniquement le contenu exposé aux humains.

Taxonomie fonctionnelle

Cette taxonomie classe le poisoning selon l’endroit où l’altération se produit et le type d’effet recherché.

1) Par surface d’altération (où ça se passe)

  • Poisoning d’entraînement : altération d’un dataset utilisé pour ajuster un modèle ou un composant d’apprentissage.
  • Poisoning de retrieval (RAG) : altération d’une base indexée, d’un moteur de recherche interne, d’un graphe, ou d’un corpus servant à la récupération de passages.
  • Poisoning de mémoire agentique : altération d’un stockage d’état (mémoire épisodique, sémantique, procédures), de manière à influencer les décisions futures d’un agent.
  • Poisoning de pipeline : altération d’une étape amont (ETL, scraping, normalisation, déduplication, scoring, filtres), qui modifie la vérité consommée.
  • Poisoning d’instruction : altération d’un système d’instructions, de policies, de gabarits ou d’outils (prompts, règles, fonctions) qui orientent l’interprétation.

2) Par mécanisme d’effet (ce que ça produit)

  • Biais directionnel : favoriser une conclusion, un narratif ou une attribution récurrente.
  • Dégradation : réduire la qualité globale (bruit, incohérences, contradictions), afin d’affaiblir la fiabilité.
  • Dérivation de référence : déplacer l’autorité vers une source « plus citée » mais non canonique (effet de gravité informationnelle).
  • Instabilité : rendre la sortie variable selon le contexte, pour empêcher la stabilisation de lecture.
  • Déclenchement conditionnel : produire un effet seulement dans certaines conditions d’entrée ou de contexte (sans détailler ici les procédés).

Distinctions nécessaires (ce que ce n’est pas)

  • Ce n’est pas une simple erreur factuelle ou une hallucination ponctuelle.
  • Ce n’est pas uniquement de la désinformation publique : la différence clé est l’ingestion comme autorité par le système.
  • Ce n’est pas un débat terminologique : la finalité ici est la stabilité d’interprétation.

Critères de reconnaissance (lecture rapide)

  • Persistant : la dérive se répète dans le temps ou à travers les sessions.
  • Systémique : plusieurs réponses ou décisions convergent vers le même biais.
  • Ancré : l’effet semble corrélé à une source, un index, une mémoire, ou une policy.
  • Résistant : corriger l’input utilisateur ne suffit pas à corriger l’output.

Portée de cette clarification

Cette page s’applique aux lectures humaines, aux synthèses automatisées, aux citations sans clic, et aux chaînes d’agents interconnectés. Elle fixe un cadre de lecture interne : quand le terme « AI poisoning » est employé dans cet écosystème, il doit pointer vers une altération d’autorité consommée, et non vers une simple controverse de contenu.

Ancrage