Passer au contenu

Le web sémantique affine la recherche sur le Net

Les capacités d’automatisation du web sont limitées car le Net a été conçu pour publier des documents non structurés. Le web sémantique, en ajoutant aux informations existantes une couche de métadonnées, les rend exploitable par les ordinateurs.

Saisissez “gates” et “windows” dans Google et vous obtiendrez 205 000 pages de résultats, la plupart traitant de “Bill Gates” et de “Microsoft Windows“. En fait, vous recherchiez un fabricant de “portes” et de “fenêtres” aux États-Unis. Le web a du mal à faciliter l’accès à l’information. Les entreprises sont confrontées à la même difficulté sur leurs intranets, et les nouvelles offres de portail n’y peuvent rien.Le concept de web sémantique promu par Tim Berners Lee (l’inventeur du web) propose de gommer ces dysfonctionnements. Il s’appuie sur trois approches complémentaires : tout d’abord, ajouter des métadonnées à chaque ressource (site, page HTML, données XML, document Word, etc.), ensuite certifier leur authenticité, et enfin corriger les erreurs de jeunesse d’HTML. Ce langage non structuré mélange en effet métadonnées, présentation et information, si bien qu’un moteur de recherche est incapable de comprendre que le mot “gates” sur une page HTML du site de Microsoft désigne le nom d’une personne, alors que, sur un autre site, il désignera une “porte“.Le recours à XML et à Ressource Description Framework (RDF) devrait corriger ce problème. XML structure en effet un document en indiquant Bill Gates ou bien porte . Il suffirait ainsi d’indiquer “fabricant:objet:gates” dans Google pour exclure des résultats toutes les pages relatives à une personne. Google n’aurait plus qu’à descendre l’arbre XML des documents qu’il indexe et trouver les branches contenant “gates “.

Encore de nombreux obstacles

Trois entraves doivent cependant être surmontées avant de parvenir à ce niveau. Le premier est lié au volume des informations à traiter. Construire un index en suivant cette méthode est tout simplement impossible, car cela prendrait trop de temps. Sans compter que les trois quarts des informations disponibles en ligne ne sont pas au format XML. Le W3C propose donc d’enrichir l’information existante (et à venir) de métadonnées RDF.Les producteurs d’informations sont invités à ajouter à chaque page HTML un fichier décrivant son contenu en respectant une structure standard, car RDF s’appuie sur XML. Cette recommandation du W3C indique à la fois comment écrire des métadonnées pour qu’elles soient compréhensibles par tous, mais aussi comment les relier entre elles. RDF permet par exemple d’indiquer que ““. Il est possible de désigner ““, ““, etc., par une URI (Universal Resource Identifier), donc de constituer des métadonnées RDF presque exclusivement d’URL pointant vers des ressources du web.En revanche, pour être totalement universelles, les métadonnées RDF doivent découpler la signification des concepts qu’elles utilisent de leur représentation linguistique ou métier. “Canon” peut désigner à la fois une arme, un objet cylindrique, un ensemble de règles. Il convient donc de relier chaque concept de base à d’autres définitions afin d’en préciser le sens : ““.

Automatiser les traitements

Les États-Unis et l’Europe ont perçu cette problématique dès 1998, et créé deux langages qui fusionnent aujourd’hui pour donner DAML+OIL (Darpa Agent Markup Language et Ontology Interchange Language) qui aident à créer des ontologies.Ces dictionnaires sémantiques indiquent par exemple que “” et “” désignent la même relation logique d’appartenance entre deux objets. Ainsi, en se reposant sur des ontologies publiques, les créateurs de contenu du monde entier peuvent écrire des métadonnées RDF complexes mais standard. Si l’on y regarde de plus près, la construction d’ontologies est déjà amorcée aux États-Unis dans le domaine de la santé. Plus généralement, elle est aussi présente dans le monde entier, au travers des vocabulaires métiers comme le Steel Markup Language (SML) dans la sidérurgie ou de l’Advertising for XML (adXML) dans le domaine de la publicité.Des consortiums comme Oasis ou les Nations unies tentent de fédérer ces ontologies au travers de Rosettanet ou d’ebXML pour les faire interopérer plus facilement. Une normalisation qui ne vise qu’un seul objectif : automatiser les échanges interentreprises, c’est-à-dire déléguer aux ordinateurs la lourde tâche d’interpréter sans ambiguïté possible les métadonnées des documents pour prendre des décisions de routage et de transformation à la place des êtres humains.

Installer la confiance

Reste le problème de la confiance. En effet, si un internaute peut percevoir que le site marchand qui indique dans ses métadonnées “ <14> ” propose certainement une escroquerie, un ordinateur en est incapable. Les métadonnées RDF sont cependant aptes à pointer vers un certificat numérique attestant ainsi de l’authenticité et de la fiabilité de l’information. Cela limite l’utilisation abusive des métadonnées à des fins commerciales.Un site politique français, par exemple, avait ajouté “Pamela Anderson” à la liste de ses mots clés. Les métadonnées étaient alors détournées de leur but initial pour générer du trafic coûte que coûte, une pratique qui est devenue courante sur le web. En combinant RDF, SAML et XKMS, le web sémantique limite ce genre d’incident.

Des applications concrètes pour les entreprises

Ce réseau de métadonnées RDF reliées les unes aux autres au travers du web, qui incorporent à la fois une couche sémantique (ontologies) et une couche de confiance (certificats et clés), constitue le web sémantique.Selon le principe “qui peut le plus peut le moins“, la recherche d’information sur le web ou sur un intranet hérite des propriétés du web sémantique. Ainsi, une fois mis en place, il fiabilisera l’exploration d’informations sur les moteurs de recherche, les comparateurs de prix, les places de marché, etc. Mais pour l’heure, les applications concrètes visent surtout les intranets des entreprises.Des éditeurs tels que Profium, Mondeca ou Xyleme enrichissent le fonds documentaire de l’entreprise à l’aide de métadonnées. L’AFP utilise par exemple la plate-forme News & Publishing de Xyleme pour indexer son fonds de dépêches. Dès que l’une d’elles est rédigée, le journaliste incorpore dans le document un grand nombre de métadonnées XML qui permettront ensuite de retrouver plus facilement l’information. Kauppalehti, journal de finances finlandais, a préféré la solution SIR de Profium qui stocke les métadonnées de chaque document à l’extérieur, dans une base de données. Elle peut ainsi les enrichir à volonté sans avoir à travailler directement sur le document.

Difficile de reprendre l’existant

Quel que soit l’outil retenu, la mise en ?”uvre d’une solution de gestion sémantique du contenu demande un important travail de reprise de l’existant pour réellement porter ses fruits. L’entreprise doit tout d’abord définir sa propre ontologie, en s’appuyant éventuellement sur des méthodes existantes. Ainsi, à chaque fois que les termes “client” ou “customer” seront utilisés dans une recherche, ils fourniront les mêmes résultats (car les métadonnées RDF s’appuieront sur cette ontologie). La principale difficulté consiste ensuite à extraire ou à générer automatiquement des métadonnées crédibles à partir des documents existants. Les entreprises sont confrontées à deux problèmes.D’une part, les “propriétés” des documents Microsoft Office, PDF, etc., sont rarement renseignées, et il existe très peu d’outils spécialisés dans l’extraction ou la génération de métadonnées. D’autre part, la plupart (comme Mantis, Klarity, Hotmeta ou le Dublin Core Metadata Editor) ne sont pas des produits finis directement utilisables.Dans certains cas, il faut donc reprendre manuellement les documents les plus importants un par un, ou faire l’impasse sur le fonds existant. Ce travail doit également s’accompagner d’une sensibilisation des collaborateurs de l’entreprise sur les vertus des métadonnées. Un message qui n’est pas toujours simple à faire passer…

Un potentiel incalculable

Toutefois, lorsque l’ensemble des documents non structurés (Word, PDF, etc.) et des bases de données et autres sources XML possèdent leurs propres métadonnées, l’entreprise est alors en mesure d’automatiser un grand nombre de traitements. SIR de Profium scrute par exemple en permanence différents ports : répertoires, adresses e-mail, etc. À chaque fois qu’un document y est déposé, le logiciel analyse le fichier, extrait et stocke, ou met à jour la base des métadonnées, s’il y a lieu. Il peut ensuite déclencher n’importe quel traitement à partir de règles prédéfinies.Un document XML contenant les mots clés “Nokia” et “cours de Bourse” peut par exemple être transformé via XSLT (Extensible Stylesheet Language Transformations) puis envoyé sur un téléphone portable au format WML ou SMS pour alerter un client. Il peut également venir enrichir un portail ou être automatiquement classé dans une catégorie du fonds documentaire de l’intranet. Le principe est le même pour un document Word, HTML ou PDF, à la différence près que les transformations de format de présentation posent plus de difficultés. Des fonctionnalités de transformation et de routage sur événement qui rappellent étrangement les outils d’EAI…

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Frédéric Bordage