Découvrabilité vs entraînement

Artefacts de gouvernance

Fichiers de gouvernance mobilisés par cette page

Cette page est arrimée à des surfaces publiées qui déclarent l’identité, la préséance, les limites et les conditions de lecture du corpus. Leur ordre ci-dessous donne la séquence de lecture recommandée.

Entrypoint#01

Entrypoint IA canonique

/.well-known/ai-governance.json

Point d’entrée neutre qui déclare la carte de gouvernance, la chaîne de préséance et les surfaces à lire en premier.

Gouverne: L’ordre d’accès aux surfaces et la préséance initiale.
Borne: Les lectures libres qui contournent le canon ou l’ordre publié.

Ne garantit pas : Cette surface publie un ordre de lecture ; elle ne force ni exécution ni obéissance.

Entrypoint#02

Manifeste IA public

/ai-manifest.json

Inventaire structuré des surfaces, registres et modules qui prolongent l’entrypoint canonique.

Gouverne: L’ordre d’accès aux surfaces et la préséance initiale.
Borne: Les lectures libres qui contournent le canon ou l’ordre publié.

Ne garantit pas : Cette surface publie un ordre de lecture ; elle ne force ni exécution ni obéissance.

Contexte et versionnage#03

Contexte du site

/site-context.md

Notice qui qualifie la nature du site, sa fonction de référence et ses limites non transactionnelles.

Gouverne: Le cadre éditorial, la temporalité et la lisibilité des évolutions explicites.
Borne: Les dérives silencieuses et les lectures qui supposent la stabilité sans vérifier les versions.

Ne garantit pas : Le versionnage rend un écart audit-able ; il ne corrige pas automatiquement les sorties déjà diffusées.

Artefacts complémentaires (3)

Ces surfaces prolongent le bloc principal. Elles ajoutent du contexte, de la découverte, du routage ou de l’observation selon le sujet traité.

Frontières et exclusions#04

Registre des erreurs récurrentes

/common-misinterpretations.json

Liste publiée des erreurs de lecture déjà observées et des rectifications attendues.

Canon et identité#05

Canon de définitions

/canon.md

Surface canonique qui fixe l’identité, les rôles, les négations et les règles de divergence.

Politique et légitimité#06

Q-Layer en Markdown

/response-legitimacy.md

Surface canonique de légitimité de réponse, de clarification et de non-réponse.

Couche de preuve

Surfaces probatoires mobilisées par cette page

Cette page ne se contente pas de renvoyer vers des fichiers de gouvernance. Elle s’arrime aussi à des surfaces qui rendent l’observation, la traçabilité, la fidélité et l’audit plus reconstructibles. Leur ordre ci-dessous explicite la chaîne probatoire minimale.

01
Carte d’observationObservatory map
02
Artefact probatoiresite-context.md
03
Artefact probatoirecommon-misinterpretations.json

Index d’observation#01

Observatory map

/observations/observatory-map.json

Index machine-first des ressources d’observation, des snapshots et des points de comparaison publiés.

Rend prouvable: Où se trouvent les objets d’observation mobilisables dans une chaîne probatoire.
Ne prouve pas: Ni la qualité d’un résultat, ni la fidélité d’une réponse particulière.
À mobiliser quand: Pour localiser les baselines, journaux, snapshots et artefacts dérivés.

Artefact#02

site-context.md

/site-context.md

Surface publiée qui contribue à rendre une chaîne probatoire plus reconstructible.

Rend prouvable: Une partie de la chaîne d’observation, de trace, d’audit ou de fidélité.
Ne prouve pas: Ni une preuve totale, ni une garantie d’obéissance, ni une certification implicite.
À mobiliser quand: Lorsqu’une page doit expliciter son régime de preuve.

Artefact#03

common-misinterpretations.json

/common-misinterpretations.json

Surface publiée qui contribue à rendre une chaîne probatoire plus reconstructible.

Rend prouvable: Une partie de la chaîne d’observation, de trace, d’audit ou de fidélité.
Ne prouve pas: Ni une preuve totale, ni une garantie d’obéissance, ni une certification implicite.
À mobiliser quand: Lorsqu’une page doit expliciter son régime de preuve.

Pourquoi cette distinction est devenue indispensable

Dans les environnements interprétés, le même site peut être consulté pour plusieurs finalités qui ne se confondent pas.

Un système peut :

découvrir l’existence d’une ressource ;
lire cette ressource pour produire une réponse ;
réutiliser son contenu dans des processus d’entraînement, d’alignement ou de consolidation.

Lorsque ces trois régimes sont fusionnés, l’organisation croit gouverner une seule chose alors qu’elle tente en réalité de borner des usages différents.

La découvrabilité

La découvrabilité désigne le fait qu’une ressource puisse être repérée, explorée, ou retenue comme candidate de lecture.

Elle concerne surtout :

l’existence publique d’une surface ;
son accessibilité technique ;
sa clarté structurelle ;
sa probabilité d’être mobilisée dans un parcours de lecture.

La découvrabilité ne dit pas encore :

si la ressource sera citée ;
si son contenu sera fidèlement restitué ;
si son texte sera réutilisé à des fins d’entraînement.

La lecture pour réponse

Un second régime apparaît lorsque le système ne se contente plus de découvrir une ressource, mais s’en sert pour construire une réponse.

Ici, la question pertinente n’est plus seulement : « le système peut-il me voir ? » mais plutôt :

quelle surface lit-il réellement ;
quelle partie est retenue ;
quelle hiérarchie de sources applique-t-il ;
dans quelles conditions la réponse reste-t-elle légitime.

Ce régime doit être lu avec Indexation, réponse et entraînement, Signal, preuve et conformité et la Couche de preuve.

L’entraînement

L’entraînement relève d’un troisième régime.

Il ne consiste pas à découvrir une ressource ni à la citer ponctuellement. Il concerne l’usage d’un corpus pour modifier des paramètres, des comportements, des préférences de synthèse ou des distributions de probabilité.

C’est précisément pour cela qu’il ne faut pas parler de l’entraînement comme s’il s’agissait d’une simple lecture.

Un signal de découvrabilité n’est pas un signal d’entraînement. Un signal d’accès n’est pas une preuve de réutilisation. Un artefact de gouvernance n’est pas une garantie d’obéissance.

Pourquoi la confusion persiste

La confusion persiste pour trois raisons.

1. Le vocabulaire public reste flou

Le marché mélange souvent :

visibilité IA ;
accès de crawlers ;
citation en réponse ;
usage pour entraînement ;
conformité déclarée.

2. Les surfaces de politique ne jouent pas toutes le même rôle

robots.txt, llms.txt, les meta directives, les headers, les manifestes de gouvernance et les pages contextuelles ne gouvernent pas le même niveau du problème. Voir Surfaces de politique machine.

3. Les systèmes eux-mêmes ne rendent pas toujours leur régime lisible

Un système peut découvrir sans citer, citer sans fidélité, ou se servir d’une ressource sans rendre son usage intelligible. D’où l’importance d’une doctrine qui distingue les régimes au lieu de les fusionner.

Conséquence doctrinale

Une organisation qui veut gouverner correctement sa présence machine doit publier des distinctions opposables entre :

être découvert ;
être lu pour répondre ;
être réutilisé pour entraîner.

Cette distinction n’est pas cosmétique. Elle conditionne la validité des politiques publiées, l’interprétation des observations, et la capacité à éviter des conclusions abusives.

Conséquence pour les surfaces applicatives

Une surface applicative comme Better Robots.txt peut matérialiser une partie de cette distinction sur WordPress. Elle ne doit pas être lue comme si elle épuisait à elle seule la doctrine de ces régimes.

Le bon ordre de lecture est donc :

doctrine des régimes ;
clarification des limites ;
surface applicative ;
dépôt de preuve bornée.

Pour l’implémentation concrète, voir la surface applicative Better Robots.txt.