Actualités
|
![]() |
Emploi
|
![]() |
Start-up
|
![]() |
Evénements 01 | ![]() |
Avis d'expert | ![]() |
Vidéos | ![]() |
Indicateurs
|
![]() |
Distribution
|
![]() |
Telecharger Pro
|
![]() |
Livres blancs | ||||||||||||||||||||||||












Powerset vient d'ouvrir au public son moteur de recherche en langage naturel. Ce “ Google killer ” répondrait à toute question dont la réponse se trouve dans Wikipedia. Ces derniers mois, d'autres jeunes pousses comme Hakia, Semantra ou Inquira se sont aussi lancées dans la recherche sémantique.
Citez cinq pays dont le nom s'écrit en quatre lettres ? On a tous rêvé de poser ces questions Trivial Pursuit à son ordinateur. De cliquer dans un moteur de recherche et d'avoir la réponse. La bonne réponse, pas une liste de liens où faire son marché. Mais jusqu'ici, il fallait se contenter de Google et de moteurs qui ne font que compter des mots clés dans des pages, sans en saisir le sens. On comprend donc le battage autour de Powerset, Hakia, Semantra ou Inquira. Ces jeunes pousses, très pointues en technologie sémantique, prétendent comprendre les pages web et, donc, répondre aux questions de façon plus pertinente. Comment ? En construisant des relations verbe-nom à l'aide de dictionnaires et d'analyse lexicale pour mieux contextualiser l'information.
L'outil de Powerset est probablement le plus abouti. Ses dirigeants le présentent comme un moteur à “ comprendre le contenu ”. Encore en bêta, il s'avère déjà bluffant. Une requête sur “ Henry VIII ” donne une vision à 360 sur le monarque : sa biographie, ses ordonnances, sa succession, ses exécutions, etc. Il présente même un onglet sur l'opéra, la pièce de théâtre et la série télévisée. La technologie est capable d'associer des faits et de consolider des informations de plusieurs pages. Impressionnant.
Seulement voilà : à la question “ quels pays ont des noms de quatre lettres ?(*) ” Powerset tique, puis répond… “ Fuck ” (sic). Google, lui, donne la bonne réponse dès le premier lien. A sa décharge, Powerset ne fonctionne pour l'instant que sur les 2,5 millions d'articles de Wikipedia, alors que Google référence plus de 30 milliards de pages web. Il n'empêche. Hakia, qui travaille sur des pages web, ne fait pas mieux. Il répond même n'importe quoi à notre à notre question : noms de domaines ISO, monastères en Egypte, etc.
Le web pose à l'évidence un problème aux moteurs sémantiques. Le contenu n'y est pas organisé et le texte se révèle difficile à contextualiser. La plupart des solutions sémantiques ciblent donc plutôt les intranets, où les recherches se font par thèmes. De fait, Hakia s'est recentré sur l'information légale, financière et médicale. Semantra, cible Microsoft CRM et les bases de données. Quant à Inquira, il utilise son moteur pour aider les techniciens de support technique. Tous vont désormais affronter des acteurs historiques comme Autonomy, IBM ou Microsoft qui, eux aussi, développent une offre sémantique. Google a beau être archileader, le moteur de recherche reste encore un marché émergent.
(*) Powerset ne fonctionne pour l'instant qu'en anglais. La requête était donc “ what countries have four-letter names ? ”
Pour - Don Dodge (Altavista) : “ un moyen inégalé pour catégoriser l'information ”
“ L'aspect langage naturel est secondaire dans Powerset. Son principal intérêt est de comprendre de quoi parle une page, notamment les différents sujets qui y sont abordés. Pour la veille, il est redoutable : il rassemble des informations provenant de multiples pages et les organise dans une liste de concepts. Il remonte donc le niveau de ce que l'utilisateur peut attendre d'un moteur de recherche. Il ferait aussi des merveilles dans un intranet pour gérer les connaissances. Il y a des centaines de données spécialisées dans les entreprises. Or avec le langage naturel, il n'est pas nécessaire de connaître la signification de chaque mot pour comprendre les concepts associés. En entreprise, il n'y a ni Pagerank ni liens qui font autorité. ”
Contre - Danny Sullivan (Search Engine Land) : “ le langage naturel n'a aucun intérêt ”
“ Cela fait dix ans qu'on nous rabâche que le langage naturel est la solution miracle aux problèmes des moteurs actuels, et cela continue aujourd'hui avec Powerset. L'idée de requêtes en langage naturel paraît séduisante. Elle est même facile à vendre : prenez un exemple qui montre que les moteurs actuels fonctionnent mal. Expliquez comment le langage naturel réglera le problème, et attendez les retombées presse. Sauf que cela fait des années que l'on en parle et que ces moteurs restent marginaux. Pour cause : il n'y a pas besoin d'analyse linguistique pour comprendre ce que quelqu'un cherche en tapant “ Britney Spears Nue ”. Les gens ne vont pas changer leurs habitudes et se mettre d'un coup aux requêtes avec des phrases longues. ”
















