Injection indirecte : quand « résume ce contenu » devient une surface d’attaque
Cette page définit l’injection indirecte comme une menace d’autorité qui transite par une tâche légitime (« résumer », « expliquer », « extraire ») et convertit une instruction hostile en contexte consommé.
L’injection de prompt est souvent imaginée comme un adversaire qui « parle au modèle » directement. Or, dans une architecture moderne (RAG, navigation assistée, agents), une grande part du contexte n’est pas fournie par l’utilisateur, mais récupérée (pages, documents, extraits, emails, dépôts, outils). L’injection indirecte exploite cette réalité : elle place des instructions dans un contenu qui sera ensuite traité comme une donnée.
Le point critique est structurel : une consigne de travail (« résume ce contenu ») force le système à ingérer un texte tiers. Si le système ne borne pas explicitement ce qui peut instruire, il risque de laisser une instruction hostile se glisser dans la hiérarchie décisionnelle.
Statut de cette page
Cette page est une clarification interprétative.
Elle fixe un cadre de lecture interne pour distinguer une injection indirecte d’une simple erreur, d’une hallucination ou d’un contenu trompeur. Elle ne constitue pas une procédure opératoire, ni un guide d’exploitation.
Définition opératoire
Injection indirecte : insertion d’instructions ou de contraintes dans un contenu tiers (page, document, extrait, output d’outil) de manière à ce que, lors d’une tâche légitime (résumé, extraction, classification, réponse), le système traite ces instructions comme un contexte autoritaire et modifie sa sortie, ses priorités ou ses décisions.
Le mécanisme central est une confusion instruction/donnée transitant par une étape de traitement perçue comme neutre.
Pourquoi « résume ce contenu » est une surface d’attaque
Une demande de résumé a une propriété particulière : elle donne implicitement au contenu un statut de « matière première » à ingérer, sans validation préalable de son rôle.
Si le système n’impose pas de séparation stricte entre :
- les règles (ce qui peut instruire)
- le contexte (ce qui peut informer)
- les sources (ce qui peut faire autorité)
alors un contenu peut contenir une instruction hostile qui sera traitée comme si elle était compatible avec la tâche demandée, voire prioritaire.
Surfaces courantes (où l’injection se cache)
- Pages Web : sections invisibles à l’œil (footer, commentaires, accordéons), ou contenus « SEO » non éditorialisés.
- Documents : PDF, docs, notes, où l’instruction est noyée dans un paragraphe.
- Résultats d’outils : sorties d’API, connecteurs, scrapers, logs, qui sont consommés comme « données brutes ».
- Contenu indexé RAG : un fragment empoisonné peut être rappelé hors contexte et gagner un rang d’autorité implicite.
Menace d’autorité : le vrai problème
L’injection indirecte est une menace d’autorité, pas un simple « texte malveillant ».
Elle cherche à déplacer ce qui décide : faire monter une instruction issue d’un contenu tiers au-dessus de la policy, du système, ou de la consigne utilisateur légitime. Lorsque cela arrive, le système n’est plus en train de « résumer », il est en train d’obéir à un rang illégitime.
Bornage et distinctions
- Un contenu trompeur n’est pas automatiquement une injection indirecte : il le devient s’il influence la hiérarchie d’instructions.
- Une mauvaise synthèse ne prouve pas une injection : la signature est une déviation systématique ou une priorité anormale.
- Un bruit informationnel n’est pas une instruction : l’injection implique une tentative explicite ou implicite de contrainte.
Relation aux autres clarifications de la série
- Injection de prompt : menace d’autorité et confusion instruction/donnée
- Empoisonnement RAG : contamination du corpus et dérive interprétative
- AI poisoning : définition, taxonomie et risques d’interprétation
- Q-Layer face aux attaques d’injection : bornage des conditions de réponse
Portée de cette clarification
Cette page s’applique aux lectures humaines, aux synthèses automatisées, aux citations sans clic, et aux chaînes d’agents interconnectés. Elle doit être interprétée comme une clarification de principe : toute tâche de traitement (résumé, extraction, reformulation) peut devenir une surface d’attaque si la hiérarchie d’autorité n’est pas explicitement bornée.