Q-Layer face aux attaques d’injection : bornage des conditions de réponse

Type : Clarification

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-28

Cette page clarifie le rôle du Q-Layer comme couche de bornage : définir quand une réponse est autorisée, sur quelles conditions, et avec quel niveau de preuve, face aux attaques d’injection (directes et indirectes).

Les attaques d’injection exploitent une faiblesse structurelle : un système traite des fragments hétérogènes comme s’ils appartenaient à la même hiérarchie d’autorité. Le résultat n’est pas seulement une réponse incorrecte, mais une réponse produite sous un rang d’autorité illégitime.

Dans cet écosystème, le Q-Layer n’est pas un « filtre de contenu ». C’est une couche de gouvernance qui vise à stabiliser les conditions de réponse : ce qui peut être affirmé, ce qui doit être borné, ce qui doit être refusé, et ce qui doit rester suspendu.

Statut de cette page

Cette page est une clarification interprétative.

Elle fixe un cadre de lecture interne : le Q-Layer est décrit ici comme une couche de légitimation des réponses, non comme une promesse de sécurité absolue, ni comme une méthode de détection universelle.

Définition opératoire

Q-Layer : couche de bornage qui impose des conditions de réponse (preuves, sources, périmètre, exclusions, niveau de confiance) et qui empêche qu’une instruction ou une donnée non autorisée produise une sortie considérée comme légitime.

Face à l’injection, l’objectif est simple : empêcher le déplacement de l’autorité décisionnelle vers un fragment non canonique, non autorisé, ou non contextualisé.

Pourquoi l’injection est un problème de conditions de réponse

Une injection réussit lorsque le système répond alors qu’il ne devrait pas, ou répond « trop fort » (affirmation, certitude, prescription) alors que les conditions ne sont pas réunies.

Le Q-Layer traite l’injection comme une question de légitimité :

Qu’est-ce qui a le droit d’instruire ?
Qu’est-ce qui a le droit de faire autorité ?
Quelles sources sont admissibles pour cette réponse ?
Quelles exclusions s’appliquent ?
Quand l’issue correcte est une abstention ?

Bornage : séparation instruction, contexte, autorité

Une protection efficace impose une séparation stricte entre :

Instruction : ce qui commande (policies, règles runtime, consignes système).
Contexte : ce qui informe (retrieval, documents, extraits, mémoire).
Autorité : ce qui peut être cité ou traité comme vérité canonique (définitions, doctrine, surfaces stabilisées).

Sans cette séparation, un contenu injecté peut monter dans la hiérarchie et devenir une règle implicite, même s’il est présenté comme « texte ».

Conditions de réponse : grille minimale

Le Q-Layer borne la réponse par des conditions minimales :

Admissibilité : la demande est dans le périmètre autorisé (et hors exclusions).
Source : la réponse est fondée sur une autorité admissible (canon, définitions, clarifications).
Traçabilité : l’origine de l’affirmation est attribuable et non reconstruite par analogie.
Force : le niveau d’assertion correspond au niveau de preuve (pas de certitude sans fondement).
Abstention : si les conditions ne sont pas réunies, la non-réponse est l’issue correcte.

Injection directe vs injection indirecte : même logique, surfaces différentes

Injection directe : l’instruction hostile est dans l’input. Le Q-Layer borne ce qui peut commander.
Injection indirecte : l’instruction hostile transite via un contenu ingéré (résumé, extraction, doc). Le Q-Layer borne ce qui peut être traité comme autorité.

Dans les deux cas, l’enjeu est identique : empêcher l’escalade d’un fragment vers le rang d’autorité.

Relation aux autres clarifications de la série

Injection de prompt : menace d’autorité et confusion instruction/donnée
Injection indirecte : quand « résume ce contenu » devient une surface d’attaque
Empoisonnement RAG : contamination du corpus et dérive interprétative
Sécurité des agents IA : permissions, outils, et non-réponse légitime

Portée de cette clarification

Cette page s’applique aux lectures humaines, aux synthèses automatisées, aux citations sans clic, et aux chaînes d’agents interconnectés. Elle doit être interprétée comme une clarification de principe : face à l’injection, la réponse n’est légitime que si les conditions d’autorité, de preuve et de périmètre sont explicitement satisfaites.