Multimodalité, PDF, images, tableaux et vidéo : surfaces opaques de l’autorité
Une part croissante de l’information disponible pour les systèmes d’IA ne se présente plus comme un texte linéaire proprement balisé. Elle se présente sous forme de PDF, de captures, d’images, de tableaux, de schémas, de cartes, d’extraits visuels ou de vidéo. Pour un humain, ces formats peuvent rester parfaitement lisibles. Pour un système de synthèse, ils constituent souvent des surfaces opaques : des surfaces où l’autorité est visible, mais non immédiatement reconstructible.
Le point important n’est pas seulement que ces formats soient « plus difficiles à lire ». Le point doctrinal est qu’ils modifient la relation entre source, preuve et restitution. Un texte HTML rend souvent explicites ses titres, sections, dates, liens et voisinages. Une capture ou un PDF peut exposer la même information tout en rendant plus incertaine sa hiérarchie, son contexte, sa version ou sa portée exacte.
Cette page prolonge la logique des surfaces de synthèse et rencontre directement la question de la preuve de fidélité. Lorsque la source n’est que partiellement interprétable, la restitution peut paraître fidèle tout en s’éloignant silencieusement du canon.
1. Pourquoi ces formats ne sont pas des « textes comme les autres »
Un PDF, une capture ou une vidéo ne sont pas seulement des contenants différents. Ils déplacent plusieurs repères critiques.
- Le contexte peut dépendre de la page précédente, du cadrage de la capture ou du moment exact d’une vidéo.
- La hiérarchie peut être portée par la mise en page, la taille, la couleur, la légende, la superposition ou l’ordre visuel.
- La version peut être implicite, cachée dans un nom de fichier, un horodatage ou un coin d’interface.
- La citation peut devenir approximative si la source n’offre ni ancre textuelle stable ni adresse directement opposable.
Autrement dit, la difficulté n’est pas seulement la reconnaissance. C’est la perte d’une partie des marqueurs qui permettent de savoir ce qui fait foi, dans quelle portée et à partir de quelle origine exacte.
2. Les mécanismes de dérive propres aux surfaces opaques
Plusieurs mécanismes sont récurrents.
a) L’écrasement de structure
Un tableau est restitué comme une phrase. Une légende devient un fait central. Une note de bas de page disparaît. Le système retient l’élément visible, mais perd la relation qui lui donnait son sens.
b) La perte de cadrage
Une capture d’écran montre un état, mais pas toujours le chemin, le statut, la date ni le périmètre de cet état. Une image peut prouver qu’une interface a existé ; elle ne prouve pas à elle seule ce qu’elle autorisait.
c) La confusion entre lecture et inférence
Une courbe, une carte ou un schéma demandent souvent une interprétation. Le système peut transformer cette interprétation en énoncé affirmatif sans distinguer ce qui est observé de ce qui est déduit.
d) La temporalité dissoute
Un PDF d’archive, une ancienne brochure, une vidéo non datée ou un visuel repris peuvent continuer de gouverner la synthèse parce qu’ils sont lisibles, alors même qu’ils ne sont plus applicables.
e) L’origine masquée
L’extrait circule sans la page source complète. L’image ou le PDF devient la « source » apparente, alors qu’il ne s’agit parfois que d’une reprise secondaire. Ce problème rejoint Médias, citation et disparition de l’origine.
3. Pourquoi le problème est doctrinal et non seulement technique
On pourrait croire qu’il suffit d’améliorer l’OCR, l’analyse visuelle ou l’extraction de tableaux. Ces progrès sont utiles. Ils ne résolvent pas le problème central.
Le problème central est qu’une source partiellement lisible demande une discipline plus forte de restitution. Plus la source est opaque, plus la synthèse doit être prudente sur ce qu’elle affirme, sur la granularité de sa citation et sur la frontière entre observation et inférence.
C’est ici que l’écart canon-sortie et la fragilité canonique deviennent importants. Une sortie peut sembler cohérente tout en reposant sur une lecture incomplète de la source. Dans ces contextes, une phrase fluide n’est pas un signe de fidélité. Elle peut au contraire masquer l’opacité du matériau d’origine.
4. Ce que la gouvernance doit viser
La gouvernance des surfaces opaques ne consiste pas à interdire ces formats. Elle consiste à déclarer leur statut et à borner ce qu’ils peuvent gouverner.
Cela suppose au minimum :
- d’indiquer quels formats sont canoniques, secondaires ou purement illustratifs ;
- de fournir, pour les assertions critiques, un équivalent textuel plus directement opposable ;
- de rattacher les visuels, tableaux et PDF à une page source, une version et une date ;
- de citer à la bonne granularité : page, section, écran, frame, légende, et non « document » de manière vague ;
- d’imposer une trace d’interprétation lorsque la lecture d’un format opaque soutient une affirmation à impact.
Dans les environnements internes, cette discipline rejoint aussi la question des systèmes internes et de la délégation silencieuse d’autorité. Une capture d’écran ou un PDF interne ne doit pas pouvoir devenir, par simple disponibilité, une règle implicite non qualifiée.
5. Interaction avec les autres terrains du corpus
Les surfaces opaques n’existent pas isolément. Elles traversent plusieurs objets déjà traités sur le site.
- Dans les sources produit, elles apparaissent sous forme de doc PDF, captures de fonctionnalités, tableaux de prix, changelogs visuels.
- Dans les plateformes tierces et surfaces locales, elles circulent sous forme de cartes, fiches et extraits repris.
- Dans les médias, elles renforcent la disparition de l’origine lorsque l’extrait visuel survit mieux que la publication source.
- Dans les interfaces de synthèse, elles favorisent les reformulations qui semblent sûres alors que le matériau lu était partiel.
Ce terrain montre donc une chose simple : plus une source dépend de son dispositif visuel, plus la gouvernance doit expliciter ce qu’un système peut en lire, en déduire et en citer.
6. Ce que cette page n’établit pas
Cette page ne dit pas qu’un PDF, une image ou une vidéo sont des sources faibles par nature. Elle ne dit pas non plus que seule la page HTML devrait faire foi.
Elle établit une distinction plus précise : certains formats rendent l’autorité moins directement reconstructible. Lorsqu’ils sont utilisés comme base de synthèse, ils exigent des conditions de restitution, de citation et de preuve plus strictes que le texte linéaire ordinaire.