Empoisonnement des données d’entraînement : gouvernance des sources et provenance

Type : Clarification

Version conceptuelle : 1.0

Date de stabilisation : 2026-02-28


Cette page définit l’empoisonnement des données d’entraînement comme une corruption de provenance qui altère l’autorité apprise, et précise pourquoi la gouvernance des sources est un enjeu interprétatif, pas seulement technique.

Lorsque le corpus d’entraînement est contaminé, le problème n’est pas uniquement « une erreur dans un dataset ». Le problème est une altération de ce que le système apprend comme régularités, hiérarchies, associations, et signaux de vérité.

Sur gautierdorval.com, l’empoisonnement d’entraînement est traité comme un cas de AI poisoning à forte inertie : une fois appris, le biais devient difficile à isoler, car il se manifeste comme un comportement « naturel » du modèle.

Statut de cette page

Cette page est une clarification interprétative.

Elle stabilise l’usage du terme dans cet écosystème et le distingue d’un bruit de données ordinaire, d’une qualité variable de corpus, ou d’un simple contenu controversé sur le Web.

Définition opératoire

Empoisonnement des données d’entraînement : altération intentionnelle (ou rendue intentionnelle) d’un corpus utilisé pour entraîner ou affiner un modèle, afin de provoquer un biais, une déviation, une instabilité ou un comportement conditionnel qui se manifeste ensuite comme propriété du système.

La signature centrale est une corruption de provenance : le système apprend à partir de sources qui ne devraient pas faire autorité, ou apprend des relations qui ont été artificiellement rendues dominantes.

Pourquoi la provenance est le vrai périmètre

Le risque n’est pas seulement « ce qui est dans le texte », mais le statut des sources et les mécanismes par lesquels elles entrent dans le corpus :

  • sélection des sources et périmètres d’ingestion
  • licences, droits, et contraintes d’usage
  • traçabilité, horodatage, versions, et “lineage”
  • déduplication, canonicalisation, normalisation
  • pondération implicite (répétition, surreprésentation, imbalance).

Une gouvernance faible de la provenance permet à des sources de faible qualité, d’autorité trompeuse ou d’intention hostile de se transformer en « vérité apprise ».

Typologie minimale (mécanismes d’effet)

  • Biais directionnel : favoriser une interprétation, une attribution ou un narratif.
  • Dégradation : introduire du bruit, des contradictions, ou de la confusion conceptuelle.
  • Dérivation de référence : faire apprendre une hiérarchie de sources erronée (autorité inversée).
  • Instabilité : rendre les sorties sensibles à des formulations mineures, faute de stabilisation.
  • Déclenchement conditionnel : provoquer un comportement seulement dans certaines conditions (sans détailler ici les procédés).

Distinctions nécessaires

  • Un corpus imparfait n’est pas automatiquement empoisonné : la clé est l’intention (ou l’instrumentalisation) et l’effet systémique.
  • Une désinformation publique n’est pas un empoisonnement tant qu’elle n’est pas intégrée dans le corpus d’entraînement avec un poids suffisant.
  • Une dérive RAG concerne un corpus indexé et rappelé. L’empoisonnement d’entraînement concerne une autorité apprise.

Gouvernance des sources (lecture interprétative)

Dans un web interprété, la gouvernance des sources est une composante de gouvernance interprétative :

  • définir ce qui a le droit de faire autorité
  • documenter les exclusions (ce qui ne doit pas être appris)
  • stabiliser les définitions canoniques et leurs frontières
  • réduire l’espace d’inférence par des bornes explicites.

Sans ces bornes, l’apprentissage tend à reconstruire des concepts « probables », pas des concepts autorisés.

Relation aux autres clarifications de la série

Portée de cette clarification

Cette page s’applique aux lectures humaines, aux synthèses automatisées, aux citations sans clic, et aux chaînes d’agents interconnectés.
Elle doit être interprétée comme une clarification de principe : si la provenance n’est pas gouvernée, l’autorité apprise devient une dérive potentielle.

Ancrage