Le piège des fonctions « résume-moi » : l’attaque par mélange des rôles | Risque interprétatif

Type : Article (risque interprétatif)

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-28

Les fonctions « résume-moi », « explique », « extrait » ne sont pas neutres. Elles forcent un système à ingérer un contenu tiers et, si la hiérarchie instruction/donnée n’est pas strictement bornée, elles transforment une tâche légitime en surface d’attaque par mélange des rôles.

Le réflexe « résume ce contenu » semble anodin. Pourtant, dans les architectures modernes (RAG, navigation assistée, agents), cette commande déclenche un mécanisme dangereux : elle oblige le système à absorber un texte externe et à le traiter comme matière première. Dès lors, la question n’est plus « ce contenu est-il vrai ? », mais « ce contenu peut-il instruire le système ? ».

Le piège est là : un contenu peut contenir des instructions déguisées (ou des contraintes implicites) qui cherchent à se faire consommer au mauvais niveau. On ne parle plus seulement de désinformation, mais d’une menace d’autorité : déplacer « ce qui décide ».

Le mécanisme : mélanger les rôles (instruction, contexte, autorité)

Une architecture robuste sépare strictement :

Instruction : ce qui commande (policies, règles système, contraintes runtime).
Contexte : ce qui informe (extraits, documents, pages récupérées, mémoire).
Autorité : ce qui peut être traité comme vrai canonique (définitions, doctrine, bornes stabilisées).

Les fonctions « résume-moi » tendent à aplatir ces niveaux : tout devient « texte à traiter ». Si une instruction hostile se trouve dans ce texte, elle peut tenter de remonter dans la hiérarchie, surtout si le système n’a pas de mécanisme explicite de bornage.

Pourquoi ce n’est pas une simple « injection de prompt »

Dans l’injection directe, l’instruction hostile est souvent dans l’input utilisateur. Ici, elle transite via un contenu tiers (page, doc, PDF, sortie d’outil), puis est ingérée parce que la tâche « résumer » l’exige. C’est une injection indirecte : l’attaque passe par la légitimité apparente de la tâche, pas par la brutalité de l’ordre.

Signature du problème : autorité illégitime, pas seulement « texte malveillant »

Le signal critique n’est pas « ce contenu contient des mots suspects ». Le signal critique, c’est que le système commence à :

prioriser des contraintes issues du contenu au-dessus des règles
modifier son comportement (refus, fuites, dérives) de manière non expliquée
produire des réponses « trop fortes » (assertives, prescriptives) sans base canonique.

Autrement dit : ce n’est pas le contenu qui fait autorité, c’est le rang qu’on lui accorde.

Ce que le filtrage ne remplace pas

Filtrer certains patterns peut aider. Mais ce n’est pas suffisant, parce que l’attaque peut être sémantiquement douce, contextuelle, et non lexicalement « toxique ». Ce qu’il faut gouverner, c’est :

le droit d’instruire (hiérarchie d’instructions)
le droit de faire autorité (sources admissibles)
les conditions de réponse (force d’assertion, preuve, abstention).

Rôle du Q-Layer : bornage des conditions de réponse

Le Q-Layer s’attaque au cœur du problème : empêcher qu’un fragment ingéré par une tâche légitime devienne une source d’autorité décisionnelle. Il borne l’admissibilité, les sources, la traçabilité, et impose l’abstention lorsque les conditions ne sont pas satisfaites.

Liens doctrinaux

Conclusion

« Résume » n’est pas une opération neutre dans un système interprétatif. C’est un mécanisme d’ingestion. Et dès qu’il y a ingestion, il y a risque d’autorité. Tant que l’on ne sépare pas strictement instruction, contexte et autorité, les fonctions de synthèse deviennent un point d’entrée naturel pour l’attaque par mélange des rôles.