Détecter une injection, un contenu toxique ou une anomalie améliore parfois la sécurité. Cela ne rend pas une réponse légitime. La légitimité est une propriété de gouvernance : périmètre, hiérarchie des sources, conditions de réponse et abstention opposable.
Dans la plupart des discours « sécurité IA », la défense est présentée comme un problème de détection : détecter les prompts malveillants, détecter la toxicité, détecter les tentatives d’évasion, détecter les contenus douteux, filtrer, bloquer, rediriger.
Ces approches sont utiles. Mais elles s’attaquent à une partie seulement du problème. Elles réduisent l’occurrence de certains signaux visibles. Elles ne répondent pas à la question la plus coûteuse : quand une réponse peut être défendue comme légitime, c’est-à-dire opposable et reconstruisible.
Pourquoi la détection ne suffit pas
La détection intervient souvent après que la confusion s’est installée : confusion instruction/donnée, confusion source/autorité, confusion contexte/vérité. Même si un filtre bloque une classe d’attaques, il reste un risque structurel : le système peut produire une réponse plausible hors conditions.
Autrement dit : un système peut être « propre » (aucune injection détectée) et rester illégitime (aucune base autorisée, aucune hiérarchie, aucune traçabilité, aucune règle d’abstention).
Détection : une logique de symptômes
La détection fonctionne comme une médecine des symptômes :
- elle observe des patterns
- elle déclenche des règles
- elle réduit une classe de comportements
Mais dans un régime interprétatif, l’exposition majeure n’est pas seulement « un comportement à bloquer ». C’est l’apparition d’une assertion sans base légitime, qui peut ensuite être utilisée, reprise, citée, et traitée comme vérité.
Légitimité : une logique de conditions
La légitimité n’est pas un filtre, c’est un contrat de sortie. Une réponse est légitime uniquement si des conditions minimales sont satisfaites :
- Admissibilité : le sujet est dans le périmètre autorisé.
- Autorité : la réponse s’appuie sur des sources admissibles et hiérarchisées.
- Traçabilité : la justification est reconstruisible (pas seulement « plausible »).
- Force proportionnée : le niveau d’assertion correspond au niveau de preuve.
- Abstention : si les conditions ne sont pas réunies, la non-réponse est l’issue correcte.
Un filtre peut réduire le bruit. Il ne peut pas, à lui seul, instaurer ce contrat.
Le piège classique : filtrer le contenu au lieu de borner l’autorité
Beaucoup de défenses « filtrage » tentent de classifier des morceaux de texte comme « dangereux » ou « sûrs ». Or l’attaque la plus structurante n’est pas toujours dans le texte. Elle est dans le rang donné à ce texte.
Une instruction malveillante n’a de pouvoir que si le système lui accorde un rang d’autorité. De la même manière, un extrait contaminé n’a d’impact que s’il est rappelé comme contexte autoritaire. La question centrale n’est donc pas « est-ce toxique ? », mais « qu’est-ce qui a le droit d’instruire ? » et « qu’est-ce qui a le droit de faire autorité ? ».
Ce que le filtrage ne remplace pas
- une hiérarchie explicite des sources
- une séparation instruction / contexte / autorité
- des règles de non-réponse légitime
- une politique d’opposabilité et d’auditabilité (traçabilité reconstruisible).
Le rôle du Q-Layer
Dans cet écosystème, le Q-Layer formalise cette logique de conditions : il ne vise pas à « détecter tout ». Il vise à empêcher une réponse non autorisée de devenir opposable, en bornant l’admissibilité, la source, la force d’assertion et l’abstention.
Liens doctrinaux
- Clarification : Q-Layer face aux attaques d’injection
- Clarification : sécurité des agents IA
- Clarification : injection de prompt
Conclusion
La détection réduit des événements. La légitimité gouverne des sorties. Une organisation peut filtrer davantage et rester exposée si elle ne sait pas dire, de manière reconstruisible : pourquoi cette réponse est autorisée, sur quelles sources, dans quel périmètre, avec quelles limites, et pourquoi, parfois, la seule sortie correcte est l’abstention.