Passer au contenu

LexiQuest automatise la catégorisation

LexiQuest élargit sa gamme d’outils d’indexation avec Categorizer, une solution de catégorisation automatique de documents, basée sur l’analyse sémantique.

LexiQuest est un éditeur spécialisé dans les logiciels d’interrogation en langage naturel. Categorizer, son dernier-né, vise les marchés des portails d’entreprise, des logiciels documentaires et des services Internet (HotBot, AltaVista), qui souhaitent s’équiper d’un moteur de recherche capable d’éviter les bruits liés à la polysémie (mot identique à plusieurs sens).Techniquement, la catégorisation s’appuie sur la mise en place d’entrées de répertoire intelligentes. Elles effectueront seules le travail de classement, affiné par un auto-apprentissage. L’utilisateur doit d’abord créer des catégories (par glisser-déposer dans un modèle XML), puis déposer des documents sources, considérés comme représentatifs du thème de la catégorie. Un frontal de développement permet de procéder à ces traitements.

Priorité au sens

Les agents logiciels entrent alors en scène. Ils opèrent une analyse morphosyntaxique des documents (structure et nature d’un mot), qui est précédée d’un travail de levée des ambiguïtés sémantiques (polysémie, métaphore…). Afin de différencier, par exemple, une souris d’ordinateur du mammifère, Categorizer affecte plusieurs descripteurs à une catégorie, ainsi qu’un coefficient d’importance. “Le système établit un rapport direct entre la catégorie et une famille de concepts. Une fois ce travail préliminaire effectué, il peut tester la validité du modèle de classement, puis traiter jusqu’à 500 000 documents à l’heure”, explique Olivier Jouve, directeur des opérations France de LexiQuest. Précisons que ces agents ne travaillent pas en fonction d’occurrences. Categorizer est rédigé en Java et s’interface avec les plates-formes J2EE. Livrée en environnement de développement, la solution gère, par ailleurs, le français, l’anglais et l’allemand.LexiQuest n’officie que depuis 1997 sur le marché du logiciel, mais son expérience en matière de solutions documentaires remonte à 1979, par des développements à façon. L’entreprise équipe actuellement les solutions documentaires de Microsoft, Verity, Lotus et Hummingbird avec LexiQuest Guide, un moteur de recherche fondé sur un dictionnaire de 150 000 concepts sémantiques.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Francisco Villacampa