Passer au contenu

RDF décrit le sens du web

Resource Description Framework se révèle être un puissant métalangage conçu pour coder la sémantique de documents web et autoriser des recherches expertes. Il offre l’avantage d’être transparent pour l’utilisateur. Par

“Bientôt, les ordinateurs seront davantage en mesure de traiter et de comprendre les données que, pour l’instant, ils ne font qu’afficher”, affirme Tim Berners-Lee, l’inventeur du web. C’est l’ambition proclamée de Resource Description Framework (RDF), un métalangage né en 1999 sous l’égide du W3C. Avec RDF, le consortium entend relever le défi du web sémantique : permettre le traitement automatisé du sens des contenus Internet. Concrètement, il ouvre la voie à des moteurs de recherche plus pertinents et à des progiciels documentaires capables de trier de façon autonome des flux de documents.Pour ce faire, RDF pose un a priori : le point de départ de ses descriptions est une ressource Internet, localisée par une adresse URI (Uniform Resource Identifier). Cette approche permet de décrire, à partir d’une application RDF, un site, son auteur, et son contenu. Tout comme les images du site et les liens vers lesquels elles renvoient. Suivant cette méthode, RDF forme des phrases (statements) structurées suivant ce triptyque : un sujet, en général une adresse web ; un objet, qui décrit le sujet ; et un prédicat, qui le plus souvent est un groupe verbal (voir illustration). Les sujets et les objets sont considérés par RDF comme des ressources et le métalangage s’intéressera à la nature des relations qui les unissent. Les relations entre ces ressources fondent la propriété de la phrase, c’est-à-dire son prédicat. RDF évite ainsi un écueil rencontré par les métalangages Pics, Dublin Core, ou Prism : adopter un vocabulaire statique qui se limite à déclarer les propriétés d’un document (nom, titre, auteur), sans effectuer de relation particulière entre ses éléments constitutifs.

XML comme format d’échange

Ensuite, RDF représente les ressources suivant des graphes élaborés, composés de n?”uds (une ressource, sujet ou objet). Ces n?”uds sont reliés par des flèches de propriétés, qui constituent le prédicat, et dotées d’une direction. L’étape suivante est la rédaction de la phrase d’après la syntaxe de RDF. Dans l’énoncé type que détaille notre illustration, RDF se fonde sur le chemin qu’indiquent les flèches, afin d’effectuer la rédaction suivant ce parcours. Pour cette tâche, il utilise ses propres attributs de description.Par la suite, la rédaction de la phrase au c?”ur des documents web s’effectue suivant la syntaxe du langage XML, que RDF utilise en tant que format d’échange. Ainsi RDF devient un dialecte XML (RDF/XML) capable de transiter entre systèmes informatiques. Les phrases peuvent alors être incorporées dans le document ou stockées à part. Ainsi, la spécification RSS 0.9 (RDF Site Summary) développée par Netscape en 1999 utilise des énoncés RDF/XML indépendants. Ils ont pour rôle d’organiser la distribution de contenu vers des partenaires à partir du portail portail My Netcape.Aujourd’hui, des logiciels d’annotation RDF sont déjà disponibles. Citons entre autres Annotea du W3C, qui permet de décrire des documents textuels, ou PhotoRDF, qui intègre directement dans les binaires des fichiers JPEG, une description de l’image suivant la méthode de RDF. L’intérêt de ces outils ? Les applications décrivent dans une phrase RDF/XML l’auteur d’un contenu web, et permettent de définir ce qu’est un “auteur”. Cette définition s’effectue à l’aide du schéma RDF. Sur le modèle des schémas XML, qui définissent la structure des documents, les schémas RDF commentent la valeur de la ressource“auteur”. Est-ce une personne qui écrit, qui conçoit le document web, qui le signe ? Chaque phrase RDF fait ensuite appel (sous forme d’adresse URI) à ces définitions, ce qui autorise la recherche précise d’un document web.Démonstration type : le moteur de recherche de l’Institut informatique de Boston propose de localiser des musées, identifiés par une adresse HTTP, sans recourir à une saisie textuelle (les musées nationaux), mais à partir d’une adresse URI. Il est d’abord nécessaire de saisir cette adresse fictive ( http://www.museum.es), et de lancer des requêtes sur la base de données pour extraire les sites appartenant à la même classe. Résultat : une liste de sites ayant uniquement trait aux musées nationaux. Dans notre exemple, la ressource “musées” est décrite, pour chacun de ces sites, au sein de shémas RDF avec un commentaire commun : “la conservation du patrimoine national”.Bien que transparente pour l’utilisateur, l’utilisation de RDF permet ici d’éliminer tout type de bruit lié aux recherches textuelles : homonymie, polysémie, etc. Le guide musical MusicBrainz exploite aussi le métalangage pour rechercher des titres d’albums musicaux.Ces classes de métadonnées serviront bientôt à décrire des documents d’entreprise. Sur simple appel d’un schéma RDF (rdf:type), un document intranet pourra être précisément commenté et qualifié de facture, contrat, bon de commande, livraison, etc. Les PGI et les solutions documentaires pourront ensuite se fonder sur des requêtes qui exploitent RDF et ses schémas, afin d’extraire des documents du même type de bases non structurées, puis d’en opérer le traitement.

RDF absorbe ses concurrents

Surprenant, RDF peut aussi se muer en un méta-métalangage. Puissant outil de description, il permet de déclarer dans un schéma RDF le vocabulaire propre aux métalangages concurrents Prism ou Dublin Core, ce qui autorise leur utilisation suivant sa propre méthode. Une solution employée par Profium, qui édite le middleware de gestion des documents Smart Information Router.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Francisco Villacampa