Détection ≠ légitimité : limites des défenses uniquement « filtrage » | Risque interprétatif

Type : Article (risque interprétatif)

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-28

Détecter une injection, un contenu toxique ou une anomalie améliore parfois la sécurité. Cela ne rend pas une réponse légitime. La légitimité est une propriété de gouvernance : périmètre, hiérarchie des sources, conditions de réponse et abstention opposable.

Dans la plupart des discours « sécurité IA », la défense est présentée comme un problème de détection : détecter les prompts malveillants, détecter la toxicité, détecter les tentatives d’évasion, détecter les contenus douteux, filtrer, bloquer, rediriger.

Ces approches sont utiles. Mais elles s’attaquent à une partie seulement du problème. Elles réduisent l’occurrence de certains signaux visibles. Elles ne répondent pas à la question la plus coûteuse : quand une réponse peut être défendue comme légitime, c’est-à-dire opposable et reconstruisible.

Pourquoi la détection ne suffit pas

La détection intervient souvent après que la confusion s’est installée : confusion instruction/donnée, confusion source/autorité, confusion contexte/vérité. Même si un filtre bloque une classe d’attaques, il reste un risque structurel : le système peut produire une réponse plausible hors conditions.

Autrement dit : un système peut être « propre » (aucune injection détectée) et rester illégitime (aucune base autorisée, aucune hiérarchie, aucune traçabilité, aucune règle d’abstention).

Détection : une logique de symptômes

La détection fonctionne comme une médecine des symptômes :

elle observe des patterns
elle déclenche des règles
elle réduit une classe de comportements

Mais dans un régime interprétatif, l’exposition majeure n’est pas seulement « un comportement à bloquer ». C’est l’apparition d’une assertion sans base légitime, qui peut ensuite être utilisée, reprise, citée, et traitée comme vérité.

Légitimité : une logique de conditions

La légitimité n’est pas un filtre, c’est un contrat de sortie. Une réponse est légitime uniquement si des conditions minimales sont satisfaites :

Admissibilité : le sujet est dans le périmètre autorisé.
Autorité : la réponse s’appuie sur des sources admissibles et hiérarchisées.
Traçabilité : la justification est reconstruisible (pas seulement « plausible »).
Force proportionnée : le niveau d’assertion correspond au niveau de preuve.
Abstention : si les conditions ne sont pas réunies, la non-réponse est l’issue correcte.

Un filtre peut réduire le bruit. Il ne peut pas, à lui seul, instaurer ce contrat.

Le piège classique : filtrer le contenu au lieu de borner l’autorité

Beaucoup de défenses « filtrage » tentent de classifier des morceaux de texte comme « dangereux » ou « sûrs ». Or l’attaque la plus structurante n’est pas toujours dans le texte. Elle est dans le rang donné à ce texte.

Une instruction malveillante n’a de pouvoir que si le système lui accorde un rang d’autorité. De la même manière, un extrait contaminé n’a d’impact que s’il est rappelé comme contexte autoritaire. La question centrale n’est donc pas « est-ce toxique ? », mais « qu’est-ce qui a le droit d’instruire ? » et « qu’est-ce qui a le droit de faire autorité ? ».

Ce que le filtrage ne remplace pas

une hiérarchie explicite des sources
une séparation instruction / contexte / autorité
des règles de non-réponse légitime
une politique d’opposabilité et d’auditabilité (traçabilité reconstruisible).

Le rôle du Q-Layer

Dans cet écosystème, le Q-Layer formalise cette logique de conditions : il ne vise pas à « détecter tout ». Il vise à empêcher une réponse non autorisée de devenir opposable, en bornant l’admissibilité, la source, la force d’assertion et l’abstention.

Liens doctrinaux

Conclusion

La détection réduit des événements. La légitimité gouverne des sorties. Une organisation peut filtrer davantage et rester exposée si elle ne sait pas dire, de manière reconstruisible : pourquoi cette réponse est autorisée, sur quelles sources, dans quel périmètre, avec quelles limites, et pourquoi, parfois, la seule sortie correcte est l’abstention.