L'indexation en langage naturel

Les moteurs d’indexation en langage naturel effectuent une analyse sémantique des pages web pour dégager les principaux concepts qu’elles contiennent. Ils s’appuient pour cela sur un corpus de concepts associés les uns aux autres, quelle que soit la langue utilisée. Par exemple, ” internet ” sera associé à ” navigateur “, alors que l’étymologie de ces deux mots n’a rien à voir. En scrutant la page à indexer, le ” crawler ” dresse une carte de la densité des différents concepts présents, et, surtout, du poids des liens qui les unissent. Ainsi, une page qui associe fortement des concepts comme ” internet “, ” navigateur ” et ” mer ” sera plutôt classée dans la catégorie ” internet “. Si la densité des concepts ” mer ” et ” navigateur ” était plus importante, la page serait classée dans la catégorie ” nautisme “. La requête de l’utilisateur est traitée de la même façon afin d’extraire le sens de la question et de fournir à l’internaute les textes comportant les concepts qui l’intéressent.

DEMAIN: la condition de l’efficacité

La pertinence des résultats dans des domaines complexes tels que les places de marché sectorielles, les sites de commerce électronique grand public, ou les intranets de gestion de la connaissance ne peut être obtenue qu’avec un moteur d’indexation en langage naturel. ” L’efficacité des moteurs de recherche devient un élément fondamental des sites de commerce électronique “, affirme Paul R. Hagen, analyste chez Forrester Research. C’est dans cette optique que Leroy Merlin a fait appel au moteur Intuition, de Sinequa, pour son site dédié au bricolage. Les internautes peuvent exprimer des questions complexes du type ” comment poser un parquet sur une dalle en béton ” et obtiennent en réponse les produits associés qu’ils peuvent acheter.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Frédéric Bordage