Gouvernance des identifiants : désambiguïsation multi-graphes et ancrage machine-first

Type : Framework opératoire

Implémente : Gouvernance interprétative, SSA-E + A2 + Dual Web, Collision interprétative, Contamination de voisinage, Frontière d’autorité, Périmètre d’interprétabilité

Fondations doctrinales : Doctrine

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-20

Les collisions d’entités, les contaminations de voisinage et la capture interprétative ont presque toujours une cause structurelle : l’identité est portée par des signaux, pas par des identifiants.

Dans un Web interprété, un nom n’est pas un identifiant. Un profil n’est pas une preuve. Un lien n’est pas une relation. Ce framework formalise une discipline d’identité persistante pour stabiliser une entité à travers plusieurs graphes (site, agrégateurs, bases, RAG, agents).

Définition opératoire

Gouvernance des identifiants : ensemble de règles visant à définir, publier et maintenir des identifiants persistants et des mappings de désambiguïsation entre graphes afin de réduire les collisions, limiter l’inférence hors périmètre et rendre l’identité auditables.

Pourquoi c’est indispensable

Un nom peut être partagé par plusieurs entités (homonymie).
Une même entité peut avoir des variantes (orthographe, langue, branding).
Les systèmes d’IA infèrent par voisinage lorsqu’ils manquent d’identifiants stables.
Les environnements RAG peuvent mélanger des entités si les documents ne sont pas ancrés.

Le but n’est pas de “faire comprendre” un modèle. Le but est d’ancrer l’entité de façon persistante.

Surfaces d’application

Web ouvert : moteurs de réponse, bases externes, agrégateurs.
RAG : chunking, routing, citations, vecteurs.
Agentique : exécution et décisions sur identité prouvable.

Types d’identifiants

Identifiant canonique on-site : URL stable de la page entité + @id persistent.
Identifiants externes : profils, bases, annuaires, registres.
Identifiants documentaires (RAG) : docId, version, source, auteur, date.
Identifiants de relation : parent/subsidiary, sameAs, isBasedOn, relatedTo.

Règles du framework (GID-1 à GID-10)

GID-1 : un identifiant canonique unique

Chaque entité doit avoir un identifiant canonique stable (URL + @id).

GID-2 : séparation nom vs identité

Le nom peut changer. L’identifiant doit rester stable.

GID-3 : mapping explicite des variantes

Déclarer les variantes (langues, acronymes, anciens noms) comme variantes de la même entité.

GID-4 : exclusions déclarées

Déclarer explicitement “ce que l’entité n’est pas” quand l’homonymie est plausible.

GID-5 : relations structurées

Rendre explicites les relations (filiale, fondateur, produit, division) pour empêcher les fusions implicites.

GID-6 : cohérence endogène

Le site doit pointer toujours vers le même identifiant (pas de contradictions internes).

GID-7 : cohérence exogène

Corriger les sources dominantes externes qui utilisent des identifiants erronés.

GID-8 : ancrage RAG

Chaque document chunké doit conserver un identifiant de source, une version et une relation à l’entité.

GID-9 : preuve d’identité

Sur attributs critiques, exiger une preuve de fidélité qui inclut l’identifiant, pas seulement le texte.

GID-10 : monitoring et régression

Tester périodiquement les collisions et vérifier que les identifiants restent cohérents après release.

Process d’implémentation

Définir l’entité et créer son identifiant canonique.
Créer une page de désambiguïsation interne si nécessaire.
Déclarer les variantes et exclusions.
Structurer les relations (graphe interne).
Cartographier les identifiants externes et corriger les divergences.
Dans le RAG, attacher chaque document à l’identifiant d’entité.
Tester multi-IA et monitorer les collisions.

Artefacts attendus

Registre des identifiants (canon + externes).
Table des variantes et exclusions.
Carte des relations d’entité (graphe interne).
Mapping multi-graphes (sources dominantes, statuts).
Batterie de tests (collisions, substitutions, contaminations).

FAQ

Pourquoi ce n’est pas juste du “sameAs” ?

Parce que la gouvernance inclut les exclusions, les relations, les versions et l’implémentation RAG/agentique.

Qu’est-ce qui casse le plus souvent les identifiants ?

Les migrations d’URL, les rebrands, les pages dupliquées et les agrégateurs non corrigés.

Quel est le gain principal ?

Réduire drastiquement les collisions et rendre l’identité prouvable, donc gouvernable.