En RAG, la contamination du corpus n’est pas un accident périphérique. Elle découle directement du modèle d’architecture : le système répond à partir d’un modèle et d’un mécanisme de récupération qui transforme des fragments en autorité contextuelle.
Beaucoup d’équipes abordent la contamination RAG comme un bug : « un document s’est glissé », « un chunk est mauvais », « l’index a rappelé quelque chose d’absurde ». Cette lecture est rassurante, parce qu’elle suggère un correctif local. Or, dans une architecture RAG, la contamination est un risque structurel : on a volontairement introduit une chaîne de récupération qui rend des fragments actionnables dans la réponse.
Le RAG n’échoue pas seulement quand il « retrouve mal ». Il échoue quand le système accorde un rang d’autorité implicite à ce qu’il retrouve, surtout si le corpus est hétérogène, mal borné ou contaminable.
RAG : une architecture qui fabrique de l’autorité contextuelle
Un système RAG opère en deux temps :
- récupérer des fragments (documents, pages, chunks, métadonnées) à partir d’un index
- générer une réponse en intégrant ces fragments comme contexte.
Cette intégration n’est pas neutre : un fragment rappelé n’est pas seulement « lu », il est souvent traité comme pertinent, parfois comme preuve, et fréquemment comme base de réponse. C’est ce qui rend la contamination systémique : la chaîne de retrieval est une chaîne d’autorité.
Contamination : trois mécanismes dominants
1) Dérivation de référence
Un corpus contaminé fait remonter des sources non canoniques comme si elles étaient préférables, simplement parce qu’elles « matchent » mieux sémantiquement, sont plus répétées, ou sont mieux chunkées. Le système commence alors à citer, résumer ou stabiliser des références qui ne devraient pas faire autorité.
2) Contamination par fragments universels
Certains fragments sont « collants » : formulations génériques, définitions vagues, prescriptions procédurales, disclaimers. Ils se rappellent dans des contextes multiples et s’imposent comme contexte récurrent, créant un biais transversal.
3) Instabilité de rappel
À formulation proche, le système rappelle des fragments différents. La réponse devient variable, parfois contradictoire, non parce que le modèle « hallucine » davantage, mais parce que le contexte rappelé n’est pas stable.
Pourquoi ce n’est pas résoluble par « un meilleur filtre »
Filtrer certains contenus toxiques aide, mais ne résout pas la propriété centrale : un corpus ouvert est contaminable, et même un corpus fermé peut dériver si la provenance, la hiérarchie et la canonicalisation ne sont pas gouvernées.
Le problème n’est pas seulement « un contenu dangereux », c’est la question : qu’est-ce qui a le droit d’entrer dans le corpus, avec quel statut, et avec quel poids ?
La gouvernance du corpus : le vrai périmètre
Traiter la contamination comme une propriété du système force un changement de périmètre : on ne gouverne pas seulement le modèle, on gouverne la chaîne de retrieval.
- Provenance : d’où viennent les sources, qui les contrôle, quelles versions.
- Bornage : ce qui est admissible, ce qui est exclu, ce qui est « contexte seulement ».
- Canonicalisation : éviter les doublons, stabiliser les références, réduire les contradictions.
- Segmentation : chunking et frontières de contexte (ce qui « colle » et ce qui se décontextualise).
- Hiérarchie d’autorité : ce qui peut faire vérité, ce qui doit rester descriptif.
RAG et risque interprétatif
Le coût du RAG contaminé n’est pas seulement une mauvaise réponse. C’est une dérive d’attribution : le système peut stabiliser un fait, un rôle, une responsabilité ou une instruction à partir d’un fragment non autorisé, puis le propager par synthèse, citation ou réutilisation.
Liens doctrinaux
- Clarification : empoisonnement RAG
- Clarification : injection indirecte
- Clarification : AI poisoning
- Article : détection ≠ légitimité
Conclusion
Le RAG est puissant parce qu’il externalise une partie de la vérité dans un corpus. Cette force est aussi sa fragilité : dès que le corpus devient contaminable, la sortie devient contaminable. La bonne réponse n’est pas d’espérer « zéro contamination », mais de gouverner la provenance, la hiérarchie d’autorité et les conditions de réponse.