Web Sémantique
Présentation du point de vue du web sémantique de l'initiative du ministère des anciens combattants concernant la mise en ligne en 2003 du fichier d'environ 1,4 millions de combattants de la première guerre mondiale (1914-1918) déclarés "Mort pour la France".
Ces informations sont maintenant essentiellement destinées à la recherche généalogique et à la recherche historique (histoire locale, histoire du conflit, etc).
- Cette présentation est avant tout destinée à illustrer par l'analyse d'une réalité concrète - un site tout entier consacré à la diffusion de fac-simile d'archives - ce qu'il convient de comprendre par web sémantique.
- Le lecteur généalogiste seulement soucieux d'une exploitation individuelle du site Mémoires des Hommes est invité dès maintenant à suivre le premier lien externe à portée de clic.
- Celui qui est seulement un peu plus soucieux d'améliorer l'accès aux sources de toutes les façons pourra peut-être entrevoir ce que le web sémantique propose en ce sens, à court, moyen, long et très long terme !
- Pour ne pas terminer par des considérations encore pour longtemps théoriques, un épilogue a été ajouté pour lancer sur le réseau - tel qu'il est aujourd'hui - l'idée d'une belle réalisation collective valorisant les données du site en question.
- Cet épilogue "Mobilisation Générale !" est évidemment "déplacé" ici pour les pionniers du web sémantique. Je les prie de bien vouloir le tolérer !
Les données de départ sont simples : un site exemplaire ; des modalités d'accès ; le web.
- Ainsi, cette base de données potentielle par son volume, son état actuel et son intérêt symbolique collectif est un bon exemple pour une analyse des voies d'optimisation dans la perspective du web sémantique.
- Site performant : clair, efficace, gratuit, etc.
- Site exceptionnel : composant important de la mémoire collective française et internationale.
- Site de conséquence : plus d'un million de documents gérés.
- Site représentatif : représentatif d'une part d'autres sites analogues existants mais surtout à venir et d'autre part comme site récent (2003) et d'autre part de beaucoup d'autres sites hors du domaine des archives.
- Site à contenu idéal : l'unicité de forme des fiches réduit ou élimine certains problèmes dans la perspective d'une exploitation ultérieure.
- Toutes ces qualités, appréciables déjà dans le web effectif, motivent une attention du point de vue des prétentions théoriques du web futur appelé web sémantique.
- Cette attention va nécessairement souligner l'écart de l'actuel et de l'idéal et doit passer par un inventaire méthodique des défauts intrinsèques dans le moyen et le long terme.
- Il faut s'arrêter sur ce point pour interpréter la section portant sur les modalités d'accès.
- La manière la plus efficace de se représenter les limites du système actuel est de se mettre à la place d'un moteur de recherche ou plus exactement d'un de ses robots explorateurs.
- Endosser les habits informatiques d'un robot, oblige à s'abstraire des modalités d'usage du web que tout internaute a appris et "incorporé" pour "voir" son environnement par le seul moyen de "palpeurs logiciels". Si la comparaison n'est pas déplacée, les obstacles rencontrés s'apparentent à ceux qui gâchent la vie sociale des personnes "à mobilité réduite".
- Donc de ce point de vue, le site Mémoires des Hommes malgré ses mérites indéniables est un beau représentant du web caché : c'est-à-dire web qui reste impénétrable pour les moyens globaux d'investigation (moteurs de recherche, agents).
- Le web caché n'est pas un web marginal portant sur quelques pourcents des données, mais est largement majoritaire, beaucoup de données n'étant accessibles que dans un rapport interactif avec la base.
- Une des façons de présenter le web dans sa version sémantique est de lui reconnaître l'ambition de réduire ce web caché autant que cela est possible et souhaitable : les dernières normes publiées début 2004 par le World Wide Web Consortium (RDF, OWL) visent ainsi en particulier à donner une représentation externe ou globale des données et ressources dissimulées dans de vastes collections ; collections impénétrables en dehors de leurs sites de conservation et de gestion.
Modalités d'accès ou conditions d'exploitation initiales
- Postons nous donc dans notre habit de robot et observons le site Mémoires des Hommes, après le premier constat totalement frustrant : à l'ouverture initiale du site, aucune des millions de données en cause n'est accessible en dehors du site. Cela d'ailleurs n'a sûrement jamais fait parti des objectifs déjà ambitieux du site !
- Seul un opérateur humain - l'internaute - peut gérer l'affichage des reproductions des fiches originales ;
- Les interrogations ne peuvent porter que sur quelques-unes des rubriques des fiches : nom du militaire ; prénom ; date de naissance, ces rubriques ayant fait l'objet d'une indexation : opération complémentaire à la numérisation physique de déchiffrement et saisie ;
- Une fois une fiche sélectionnée et affichée, les actions possibles sont limitées : lecture, impression, enregistrement disque. Il n'est pas possible d'exploiter ainsi plusieurs milliers de fiches sans une sérieuse motivation.
- Pour une fiche, les rubriques et données indexées représentent environ 30% du nombre des rubriques ou des données totales. Le reste est donc uniquement accessible par affichage puis déchiffrement-lecture de la fiche. Les autres rubriques concernent le statut du militaire (grade, etc) et les date, lieu et circonstances du décès, ainsi que l'enregistrement de l'acte de décès ;
- L'homonymie induit souvent un nombre de réponses supérieur au millier, surtout si l'interrogation ne porte que sur le nom de famille. L'efficacité est donc très grande si des données précises sont connues de l'utilisateur (date de naissance en particulier), mais relative dans l'autre cas.
- Voilà décrits les éléments de départ : le petit robot têtu observe le manège mais se désespère pour toutes les recherches qu'il pourrait nourrir substantiellement si des portes lui étaient ouvertes ou des passerelles aménagées.
- Ainsi d'un point de vue "web sémantique" : En l'état et dans l'absolu, ces données ne sont finalement globalement accessibles que par l'exploitation qui en est faite par les utilisateurs eux-mêmes et encore à la condition que cette exploitation soit elle-même mise en ligne. Par exemple, les données concernant Roland Garros et autres célébrités sont survolées par les robots et ainsi ne sont visibles universellement que par l'écho qui leur est donné en dehors du site originel...
- Il est temps d'expliciter alors ce que le futur web nous promet sinon pour ce fichier pour d'autres par exemple plus "rentables..."
Diverses suggestions pour un fichier des anciens combattants "web sémantique"
Le concept de métadonnées
- Le web sémantique repose pour une partie sur le concept de métadonnée qui est une information portant sur une donnée.
- Les rubriques complètement exploitées (indexées) constituent en elles-mêmes un ensemble de métadonnées correspondant aux données ou ressources que constituent les fiches affichées ou les fiches concrètes.
- Pour ceux qui n'auraient pas utilisé le site, ces rubriques permettent la sélection des fiches ; ce sont des données textes qui existent indépendamment des reproductions dont elles sont issues.
- Il s'agit d'un cas particulier de métadonnées : chaque métadonnée est en fait aussi une donnée : GARROS et Roland sont à la fois deux données et deux métadonnées.
Première ambition "web sémantique" :
- Une visibilité externe au site de ces métadonnées permettrait une exploitation "globale" pour un investissement raisonnable.
- Cela suppose concrètement qu'un autre site ou une partie du même site soit affecté à une base de données constituée des noms, prénoms, dates de naissance. Cela permettrait déjà simplement divers travaux simples ou complexes préparant ou non l'exploitation proprement dite du fichier.
- Il faut aussi que ces données soient décrites comme métadonnées (avec les normes requises) : un robot n'a pas accès aux données d'une base sauf si des métadonnées lui en donnent la possibilité concrète à travers un formalisme.
- A ce stade pourtant déjà ambitieux, le web sémantique n'est là qu'une question de bon sens et particulièrement ici de sens pratique.
Deuxième ambition "web sémantique" :
- Si le petit robot têtu doit rester les bras croisés, il faut que les utilisateurs servent d'intermédiaires en achevant la numérisation des documents, c'est-à-dire leur traduction en textes qu'il pourra exploiter plus ou moins rationnellement...
- Cela relève bien sûr du bricolage, mais cela sera probablement le seul progrès à court terme dans la transparence externe du site : selon le hasard de motivations individuelles ou associatives, quelques "parties par million" (expression chimique) seront sorties du web caché et ajouteront pour une part progressivement à la confusion du reste du web dit visible.
- Cela n'est pas réellement enthousiasmant, mais du point de vue du robot qui est dorloté en fonction du trafic et non en fonction de l'efficacité, c'est toujours bon à prendre. Le web sémantique regarde par-dessus son épaule et porte sur son action le même regard condescendant qu'il portait lui-même tout à l'heure sur le comportement des humains...
- Enfin le web sémantique n'est pas la panacée : la visibilité et accessibilité complète d'un tel volume de données ne seraient pas sans poser quelques problèmes...
- Une réalisation rationnelle de cette ambition est suggérée dans l'épilogue.
Troisième ambition "web sémantique" :
- Cette ambition n'est évoquée ici que pour illustrer les aspects les plus ambitieux et prometteurs du web sémantique tel qu'il est conçu aujourd'hui. Elle n'est qu'une perspective complémentaire dans le très long terme !
- Une fois toutes les données saisies et accessibles dans leur état originel, les récentes normes prétendent permettre des optimisations d'un grand raffinement, certes au prix d'investissements humains assez considérables...
- Par exemple, la sophistication des métadonnées via ce qu'on appelle des ontologies pourrait permettre qu'une mention de "mort au combat" dans tel régiment en tel endroit soit placée "automatiquement" dans le cadre d'un épisode particulier du conflit ou inversement que des sous-ensembles du fichier permettent la création de modèles informatiques du conflit à tous les niveaux, comme des soldats de plomb en permettent une mise en scène. Cela relève pour le moment de l'utopie !
- L'ontologie d'une guerre peut être comprise comme l'ensemble des règles plus ou moins strictes ou théoriques qui permettent de "modéliser" chacun de ses éléments : un impact de tir de mortier, un assaut, une relève, une épidémie, un courrier personnel, etc.
- Vue d'un oeil élémentairement informatique, cet article souligne le contraste entre un site exemplaire à plus d'un titre et les murailles impénétrables qu'il dresse face aux exigences d'accès sans entrave à l'information que le web autorise chez tout internaute ; exigences implicites et modestes actuellement, mais plus aiguës et manifestes dans le futur web avide de qualité.
- Les normes qui anticipent cet idéal ont été seulement évoquées par les concepts de métadonnées, de ressources "visibles" et d'ontologie...
- Comme illustration, des opérations ou ambitions intermédiaires ont été présentées pour indiquer les directions qu'il est ou serait possible de suivre dans le sens du progrès...
- S'achèvent alors les considérations concernant effectivement le web sémantique ou web réellement informatique... pour conclure sur une suggestion de projet concret de collaboration d'intérêt général en prenant les choses par le bon bout !
Épilogue : mobilisation générale !
L'opération globale a été gérée par la puissance publique ;
- l'opération de numérisation des sources a été effectuée par une société privée ;
- pourquoi l'opération complémentaire ne serait-elle pas le mérite des utilisateurs eux-mêmes ?
- Avec un peu de méthode et de soutien, à l'échelle des temps généalogiques, le temps de le dire et ce serait fait :
- En effet, si l'on évalue grossièrement le public généalogiste francophone à cent mille personnes ou plus sérieusement leurs associations à quelques centaines, un principe élémentaire de division du travail permet de croire à une réelle faisabilité de cette opération : "1 400 000 fiches réparties entre 100 associations-individus" donne 14 000 fiches par association-individu !
- Cela est tout à fait réaliste au "niveau individuel" : des opérations portant sur 5 000 à 50 000 fiches sont depuis longtemps supportées par des généalogistes isolés ou réunis en association. Quelques associations départementales ont déjà largement dépassé les 2 millions de références sur l'état civil ancien ; ces références sont en volume plus réduites que le contenu des fiches des anciens combattants mais sont plus difficiles à produire et à gérer puisque ces fiches sont - elles - établies selon un modèle à la fois simple et unique.
- En principe, il n'est donc besoin que d'un peu d'organisation et de la formation de quelques escouades composées d'individus ayant gardé un peu du courage et du sens du sacrifice de leurs ancêtres.
- Comme on l'a expliqué plus haut, cela ne serait qu'une étape vers le web optimal, mais ce serait l'étape essentielle tant pour l'exploitation des données que pour la cohérence du web vu comme volume d'informations.
- Une fois, cela réalisé, il sera par exemple facile d'effectuer une exploitation exhaustive des données correspondantes à une commune ou un canton : commune de naissance des militaires ou commune du lieu du décès ou du combat, etc. Les travaux portant expressément sur le conflit pourraient se faire sur des bases scientifiques, etc.
- D'un point de vue symbolique, le soldat inconnu se verrait reconnu tout en restant anonyme ! Cela serait plus en proportion de son sacrifice que la gerbe officielle qui doit lui échoir cérémonieusement chaque année jusqu'à la fin des temps !
- Là comme ailleurs, le futur et espéré web sémantique est un défi qui concerne chacun et en particulier les utilisateurs.
--
Hervé Tigier le 8 mars 2004.