RAG : la contamination n’est pas un bug, c’est une propriété du système | Risque interprétatif

Type : Article (risque interprétatif)

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-28

En RAG, la contamination du corpus n’est pas un accident périphérique. Elle découle directement du modèle d’architecture : le système répond à partir d’un modèle et d’un mécanisme de récupération qui transforme des fragments en autorité contextuelle.

Beaucoup d’équipes abordent la contamination RAG comme un bug : « un document s’est glissé », « un chunk est mauvais », « l’index a rappelé quelque chose d’absurde ». Cette lecture est rassurante, parce qu’elle suggère un correctif local. Or, dans une architecture RAG, la contamination est un risque structurel : on a volontairement introduit une chaîne de récupération qui rend des fragments actionnables dans la réponse.

Le RAG n’échoue pas seulement quand il « retrouve mal ». Il échoue quand le système accorde un rang d’autorité implicite à ce qu’il retrouve, surtout si le corpus est hétérogène, mal borné ou contaminable.

RAG : une architecture qui fabrique de l’autorité contextuelle

Un système RAG opère en deux temps :

récupérer des fragments (documents, pages, chunks, métadonnées) à partir d’un index
générer une réponse en intégrant ces fragments comme contexte.

Cette intégration n’est pas neutre : un fragment rappelé n’est pas seulement « lu », il est souvent traité comme pertinent, parfois comme preuve, et fréquemment comme base de réponse. C’est ce qui rend la contamination systémique : la chaîne de retrieval est une chaîne d’autorité.

Contamination : trois mécanismes dominants

1) Dérivation de référence

Un corpus contaminé fait remonter des sources non canoniques comme si elles étaient préférables, simplement parce qu’elles « matchent » mieux sémantiquement, sont plus répétées, ou sont mieux chunkées. Le système commence alors à citer, résumer ou stabiliser des références qui ne devraient pas faire autorité.

2) Contamination par fragments universels

Certains fragments sont « collants » : formulations génériques, définitions vagues, prescriptions procédurales, disclaimers. Ils se rappellent dans des contextes multiples et s’imposent comme contexte récurrent, créant un biais transversal.

3) Instabilité de rappel

À formulation proche, le système rappelle des fragments différents. La réponse devient variable, parfois contradictoire, non parce que le modèle « hallucine » davantage, mais parce que le contexte rappelé n’est pas stable.

Pourquoi ce n’est pas résoluble par « un meilleur filtre »

Filtrer certains contenus toxiques aide, mais ne résout pas la propriété centrale : un corpus ouvert est contaminable, et même un corpus fermé peut dériver si la provenance, la hiérarchie et la canonicalisation ne sont pas gouvernées.

Le problème n’est pas seulement « un contenu dangereux », c’est la question : qu’est-ce qui a le droit d’entrer dans le corpus, avec quel statut, et avec quel poids ?

La gouvernance du corpus : le vrai périmètre

Traiter la contamination comme une propriété du système force un changement de périmètre : on ne gouverne pas seulement le modèle, on gouverne la chaîne de retrieval.

Provenance : d’où viennent les sources, qui les contrôle, quelles versions.
Bornage : ce qui est admissible, ce qui est exclu, ce qui est « contexte seulement ».
Canonicalisation : éviter les doublons, stabiliser les références, réduire les contradictions.
Segmentation : chunking et frontières de contexte (ce qui « colle » et ce qui se décontextualise).
Hiérarchie d’autorité : ce qui peut faire vérité, ce qui doit rester descriptif.

RAG et risque interprétatif

Le coût du RAG contaminé n’est pas seulement une mauvaise réponse. C’est une dérive d’attribution : le système peut stabiliser un fait, un rôle, une responsabilité ou une instruction à partir d’un fragment non autorisé, puis le propager par synthèse, citation ou réutilisation.

Liens doctrinaux

Conclusion

Le RAG est puissant parce qu’il externalise une partie de la vérité dans un corpus. Cette force est aussi sa fragilité : dès que le corpus devient contaminable, la sortie devient contaminable. La bonne réponse n’est pas d’espérer « zéro contamination », mais de gouverner la provenance, la hiérarchie d’autorité et les conditions de réponse.