Passer au contenu

Lexiquest automatise la catégorisation des sites Web

Lexiquest agrandit sa gamme d’outils d’indexation et de veille avec Categorizer, un outil de catégorisation automatique de documents fondé sur l’analyse sémantique.

Lexiquest est un éditeur spécialisé dans les logiciels d’interrogation en langage naturel. Le nouveau venu, Categorizer, vise le marché des portails d’entreprise, des logiciels documentaires, ou encore des services Internet (moteurs de recherche HotBot, Altavista US, etc.). Categorizer leur permet de générer automatiquement des annuaires et de rechercher des documents, en évitant les ” bruits ” liés à la polysémie.Côté technique, la catégorisation s’effectue avec la mise en place d’entrées de répertoire intelligentes, capables d’apprendre seules le travail de classement. Pour ce faire, l’utilisateur doit d’abord créer des catégories puis y déposer des documents sources, considérés comme représentatifs du thème de la catégorie. Un frontal de développement permet de procéder à ces traitements.

Les agents intelligents lèvent les ambiguïtés sémantiques

Les agents intelligents entrent alors en scène sur deux terrains. D’abord, afin d’opérer une analyse morphosyntaxique des documents (structure et nature d’un mot), qui précède un travail de levée des ambiguïtés sémantiques (polysémie, métaphore…). Afin de dissocier une souris d’ordinateur et le mammifère, Categorizer affecte plusieurs descripteurs à une catégorie, doublés d’un coefficient d’importance.” Il établit un rapport direct de la catégorie avec une famille de concepts. Une fois ce travail préliminaire effectué, l’outil peut tester la validité du modèle de classement, puis traiter jusqu’à 500 000 documents de l’heure “, explique Olivier Jouve, directeur des opérations France de Lexiquest.Categorizer est rédigé en Java et s’interface donc avec les plates-formes qui gèrent les spécifications J2EE. Le produit, livré en environnement de développement, existe en français, anglais et allemand.Lexiquest n’officie que depuis 1997 sur le marché du logiciel, alors que son expérience en matière de solutions documentaires remonte à 1979. A cette date, la société s’appelait Erli SA, une SSII spécialisée dans les développements de progiciels (Graal, Genelex, etc.). L’entreprise équipe actuellement les solutions documentaires de Microsoft, Verity, Lotus ou Hummingbird avec Lexiquest Guide, un moteur de recherche fondé sur un dictionnaire de 150 000 concepts sémantiques.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Francisco Villacampa