Empoisonnement RAG : contamination du corpus et dérive interprétative
Cette page définit l’empoisonnement RAG comme une contamination d’un corpus de retrieval qui altère l’autorité consommée et provoque une dérive interprétative.
Les architectures RAG (Retrieval-Augmented Generation) ne répondent pas uniquement « avec un modèle ». Elles répondent avec un modèle et un système de récupération : index, embeddings, moteur de recherche, bases documentaires, filtres, règles de ranking et assemblage de contexte. Dans ce cadre, la surface d’attaque ne se limite pas à l’instruction (prompt). Elle inclut la matière que le système va citer, résumer, ou traiter comme référence.
Sur gautierdorval.com, l’empoisonnement RAG est traité comme un cas particulier de « AI poisoning » : une altération de la source consommée comme autorité dans la chaîne d’interprétation, qui produit des réponses biaisées, instables ou détournées.
Statut de cette page
Cette page est une clarification interprétative.
Elle vise à stabiliser l’usage interne du terme « RAG poisoning » en le distinguant des erreurs de retrieval ordinaires, de la simple désinformation publique et des attaques d’injection de prompt.
Définition opératoire
Empoisonnement RAG : contamination intentionnelle ou instrumentalisée d’un corpus indexé (documents, fragments, métadonnées) utilisé pour la récupération de contexte, de manière à déplacer l’autorité consommée, biaiser le rappel, ou injecter des fragments qui altèrent systématiquement les sorties.
La propriété centrale est la suivante : le contenu empoisonné n’est pas seulement visible, il est ingéré, indexé, puis rappelé comme contexte dans des réponses, ce qui lui donne un rang d’autorité implicite.
Contamination du corpus : ce qui est réellement visé
Dans une architecture RAG, l’attaque vise rarement « le modèle ». Elle vise le corpus et ses mécanismes de sélection :
- le contenu source (pages, docs, notes, bases, tickets)
- la segmentation (chunks) et les frontières de contexte
- les embeddings et la similarité sémantique
- le ranking (ce qui remonte en premier)
- les filtres et policies de sélection
- la déduplication, canonicalisation, et normalisation.
Une contamination réussie modifie ce que le système « considère pertinent », pas seulement ce qu’il pourrait lire.
Typologie minimale (mécanismes d’effet)
- Dérivation de référence : faire remonter une source non canonique comme si elle était plus autoritaire.
- Biais directionnel : orienter des réponses vers un narratif ou une attribution récurrente.
- Instabilité de rappel : provoquer des contradictions selon les requêtes, sessions ou formulations.
- Contamination par fragments : injecter des chunks « plausibles » qui se collent à de nombreux sujets.
- Dégradation : bruit intentionnel pour réduire la fiabilité globale et ouvrir l’espace d’inférence.
Distinctions nécessaires (ce que ce n’est pas)
- Un mauvais retrieval n’est pas automatiquement un empoisonnement : il peut s’agir d’un index faible, de chunks mal découpés ou d’un ranking inadéquat.
- Une page publique trompeuse n’est pas un empoisonnement tant qu’elle n’est pas ingérée et rappelée par le système comme contexte.
- Une injection de prompt vise l’instruction. L’empoisonnement RAG vise la matière rappelée comme source d’autorité.
Relation avec l’injection indirecte
L’injection indirecte et l’empoisonnement RAG sont souvent combinés :
- l’injection indirecte cherche à faire passer une instruction hostile via un contenu traité (ex. résumé)
- l’empoisonnement RAG cherche à faire rappeler ce contenu empoisonné de manière récurrente, en le rendant « pertinent » pour de nombreuses requêtes.
Dans ce cas, le problème n’est plus ponctuel. Il devient persistant et systémique.
Portée de cette clarification
Cette page s’applique aux lectures humaines, aux synthèses automatisées, aux citations sans clic, et aux chaînes d’agents interconnectés.
Elle doit être interprétée comme une clarification de principe : en RAG, la gouvernance de l’autorité passe autant par la gouvernance du corpus que par le contrôle des instructions.