Passer au contenu

Les outils de cartographie se mettent au service de la recherche textuelle

Des moteurs de représentation cartographique viennent appuyer les algorithmes d’analyse linguistique pour visualiser les thèmes couverts par les fonds documentaires et en permettre l’exploration détaillée.

La recherche plein texte a, depuis longtemps, bénéficié des apports de la linguistique. Elle profite aussi des techniques de représentation cartographique de l’information. La mise en scène cartographique s’applique non pas directement aux documents, mais aux mots-clés, concepts et liens de parenté que l’on peut établir entre les thèmes dominants ou mineurs couverts par les documents du fonds exploré. On cherche, par ce moyen, à apporter des éléments de cohérence et d’organisation – on parle aussi de catégorisation de l’information – à des fonds documentaires non structurés. Et ce qu’il s’agisse de volumes de fichiers, d’applications documentaires, de sites web, ou même de résultats d’une recherche sur internet ou sur une base documentaire. Plusieurs outils de ” textmining ” présentent des approches assez semblables d’extraction des concepts, mots-clés et phrases signifiantes contenus dans les textes traités et de recherche des liens de parenté entre ces éléments. C’est le cas de Wordmapper (l’ex-Neurotext de Grimmersoft), Leximine (Lexiquest), Semiomap (Semio) ou, plus récemment, Lotus Discovery Server – qui succède à l’outil de gestion de la connaissance Kartograph.

Regrouper les mots-clés sous forme de grappes

La cartographie mise en ?”uvre par ces logiciels consiste ensuite à regrouper les mots-clés sous forme de n?”uds ou de ” clusters ” et à interconnecter ces regroupements par des liens indiquant des relations d’affinité. De tels outils privilégient la visualisation de réseaux sémantiques, contrairement au moteur Umap, de Trivium, qui pousse à l’extrême la métaphore géographique.Désormais intégré au logiciel de textmining SEE-K (Solution for the Exploration and Exploitation of Knowledge), Umap procède par établissement d’une liste de mots-clés pour chaque document du fonds traité. Ces mots-clés sont ensuite exploités dans le cadre d’une représentation cartographique concentrique, permettant de caractériser les thématiques dominantes ou secondaires. La carte documentaire Umap accorde une importance certaine à la notion de ” point focal ” – le centre de la carte, en quelque sorte. Les agrégats de mots-clés proches du point focal sont ainsi symptomatiques de la thématique principale explorée par l’utilisateur, tandis que les agrégats distants de ce point témoignent de l’existence de thèmes secondaires.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Thierry Jacquot