Benchmarks publics, journaux d’observation et snapshots

Dans un corpus doctrinal, le besoin de comparaison arrive vite. Dès qu’une architecture prétend réduire la dérive, rendre une hiérarchie visible, stabiliser une entité ou préserver une frontière d’autorité, une question revient : comment le montrer publiquement sans transformer l’observation en promesse ?

C’est précisément la fonction des benchmarks publics, des journaux d’observation, des snapshots et des jeux de comparaison. Ces surfaces ne servent pas à dire « le système est meilleur ». Elles servent à rendre une variation contestable, comparable et archivable.

Cette page ne remplace ni Q-Ledger, ni Q-Metrics, ni le protocole de validation cross-modèles. Elle situe doctrinalement la famille à laquelle ces objets appartiennent.

1. Pourquoi publier des comparaisons publiques

Sans surface publique de comparaison, la gouvernance reste facilement rhétorique. On affirme qu’une dérive baisse, qu’une cohérence progresse, qu’une frontière tient mieux, mais l’extérieur ne peut ni vérifier la méthode, ni comparer les états, ni contester ce qui a été retenu.

Publier une surface comparative, même faible, change la nature du débat. On ne discute plus seulement d’une impression ou d’un récit de performance. On discute d’un protocole, d’un périmètre, d’une date, d’un corpus, d’un état du système et d’écarts observés.

Cette publicité n’est pas un supplément marketing. Elle est une discipline de formulation. Elle oblige à distinguer ce qui est observé, ce qui est interprété, ce qui est comparé et ce qui n’est pas prouvé.

2. Quatre objets qu’il faut cesser de confondre

a) Le benchmark

Un benchmark est un protocole de comparaison. Il suppose un ensemble stable de cas, de questions, de critères d’observation et de conditions de lecture. Sans protocole déclaré, le mot ne désigne qu’une rhétorique d’évaluation.

b) Le journal d’observation

Un journal d’observation, comme Q-Ledger, enregistre des états observés sur une période. Il ne compare pas nécessairement des modèles ou des sorties. Il documente une continuité, des consultations, des séquences, des occurrences, des ruptures.

c) Le snapshot

Un snapshot fige un état daté. Il est précieux parce qu’il rend visible ce qui était accessible, publié ou observé à un moment donné. Sans snapshots chaînés, la mémoire de gouvernance devient réécrivable.

d) Le jeu de comparaison

Le jeu de comparaison rassemble les cas, prompts, entités, variantes, documents ou environnements sur lesquels une comparaison devient reproductible. Il peut prendre la forme d’un dataset, d’une matrice, d’une annexe tabulaire, d’un repo ou d’une série d’états documentés.

Ces objets peuvent se combiner, mais ils n’ont pas le même statut. Un benchmark sans snapshot devient vite invérifiable. Un snapshot sans jeu de comparaison reste muet sur la méthode. Un journal d’observation sans protocole comparatif documente une présence, pas une supériorité.

3. Ce que ces surfaces peuvent vraiment montrer

Bien conçues, ces surfaces peuvent montrer plusieurs choses utiles :

qu’un état A et un état B ont été observés à des dates distinctes ;
qu’un protocole de comparaison est resté stable ou a été modifié ;
que certains cas négatifs, exceptions ou zones d’incertitude réapparaissent ;
qu’une amélioration alléguée correspond à des différences visibles dans un corpus figé ;
qu’un changement de modèle, de source, de version ou de structure a déplacé les résultats.

Elles peuvent aussi montrer qu’un système devient plus prudent, qu’une non-réponse devient plus fréquente là où elle devrait l’être, ou qu’une hiérarchie de sources tient mieux sous variation.

Elles ne servent donc pas seulement à mesurer « plus » ou « moins ». Elles servent à documenter comment une restitution change, où elle se fragilise et ce qui reste non résolu.

4. Ce qu’elles ne peuvent pas prouver

Leur valeur augmente précisément quand elles n’en disent pas plus qu’elles ne peuvent en porter.

Elles ne prouvent pas :

l’identité ou l’intention de l’acteur derrière le système ;
une conformité réglementaire, juridique ou contractuelle ;
une causalité simple entre un changement et un résultat ;
une hiérarchie universelle entre modèles ;
une stabilité absolue en dehors du protocole publié.

C’est pour cela que l’observation doit rester distincte de l’attestation, et que les baselines publiées doivent rester accompagnées de leurs limites.

Un benchmark qui se présente comme certificat de qualité sort de son périmètre. Un journal d’observation qui se présente comme preuve forte s’expose à une surexploitation interprétative.

5. Les conditions minimales d’une publication doctrinalement propre

Une surface publique de comparaison devrait au moins déclarer :

le périmètre exact des cas et ce qu’il exclut ;
la fenêtre temporelle de l’observation ;
les conditions de collecte et de fixation ;
les différences de version entre états comparés ;
les cas négatifs et non seulement les cas démonstratifs ;
la continuité d’archive qui permet de vérifier qu’un état n’a pas été réécrit a posteriori ;
la nature de la preuve publiée : descriptive, comparative, exploratoire, indicative.

C’est ici que les observations baseline et la baseline phase 0 jouent un rôle utile. Elles montrent un état, une portée, des limites, et non un slogan de performance.

6. Pourquoi l’archive compte autant que le score

Dans les pratiques faibles, on publie une note, un score, un tableau ou un verdict de synthèse. Dans les pratiques fortes, on publie aussi les conditions permettant de revenir au contexte du score.

Une comparaison sans archive peut être récitée, mais difficilement auditée. Un score sans protocole peut être répété, mais difficilement contesté. Une série de snapshots sans continuité peut être exhibée, mais difficilement reconstruite.

L’archive ne donne pas magiquement raison. Elle rend simplement plus coûteuse la réécriture silencieuse du passé. C’est pourquoi le benchmark public n’a de valeur doctrinale que s’il est rattaché à une mémoire de publication.

7. Portée et limite

Cette page n’appelle pas à industrialiser le classement des modèles ni à transformer le site en laboratoire de performance. Elle pose une exigence plus sobre : lorsque la doctrine publie de la comparaison, cette comparaison doit rester méthodiquement faible, publiquement lisible et explicitement bornée.

Un benchmark public n’est utile que s’il réduit le brouillard sans fabriquer une nouvelle illusion d’autorité.

Benchmarks publics, journaux d’observation et snapshots