Passer au contenu

Trois méthodes d’investigation

Trier les documents en utilisant les hyperliens plutôt que les mots clés, plonger à l’intérieur même des textes pour en dégager le sens, soigner l’interface pour amener l’Internaute à préciser sa requête : voici les trois pistes de travail qui permettront de concevoir un moteur de recherche abouti. Aujourd’hui, des prototypes sont soumis à des tests en laboratoire. Demain, ils seront mis en ligne.

Exploiter les liens reliant les pages

Les pages Web contiennent bien plus que du texte. On y trouve aussi des hyperliens, des adresses qui mênent à d’autres sites. Pourquoi ne pas exploiter ces informations ? ” Nous pensons que les hyperliens sont une marque d’adhésion et confêrent aux sites un statut de référence, affirme Ravi Kumar, chercheur pour IBM, qui sépare le Web en deux. Il y a les pages qui font autorité et celles qui servent de pivot. Les premiêres sont les meilleures sources d’information sur un sujet précis, les secondes contiennent des groupes de liens, au contenu voisin, qui pointent vers les premiêres. ” Son moteur de recherche, nommé Clever, donne deux notes, une de référence et une de pivot, à chaque document. Les pages sont liées ainsi à celles qui présentent des points de vue similaires. Sont éliminées aussi celles qui n’ont pas de lien avec le thême abordé. IBM soutient que ses résultats sont identiques ou même meilleurs que ceux de Yahoo! pour 81 % des requêtes. Unique défaut : le systême avantage les sites en position dominante et n’offre qu’avec retard un espace aux nouveaux venus.

Ravi Kumar, chercheur chez IBM, a élaboré un moteur de recherche qui classe les sites par ordre de pertinence.

Analyser le contenu des documents

Pour trouver le bon document, encore faut-il connaître son contenu. Facile à dire L’idéal est de chercher les éléments de langage qui définissent le sens du document. Olivier Corby, chercheur à l’Inria de Sophia-Antipolis, utilise des réseaux sémantiques, de gigantesques dictionnaires où figurent les relations entre les mots, les rêgles qui régissent le langage. Si l’internaute tape ” pollution “, le moteur saura qu’il peut s’agir de mercure, d’ozone, de fumées, etc. Il saura aussi que le mazout est polluant, même si le terme ” pollution ” n’est pas utilisé dans la page. De son côté, à Honolulu, un spécialiste des dauphins, Herbert Roitblat, s’est inspiré de la façon dont ces mammifêres marins se dirigent et se repêrent dans leur environnement pour imaginer un moteur de recherche plus intuitif, capable d’analyser le document dans son ensemble, pour définir des niveaux de langage (scientifique, populaire), et classer les documents par type (témoignage, article). Pour des recherches plus ciblées.

Herbert Roitblat s’est inspiré de la maniêre dont se dirigent les dauphins pour créer son moteur de recherche.

Accompagner l’internaute dans sa quête

Amanda Spink, chercheuse au département Informatique de l’université Penn State, en Pennsylvanie, aux Etats-Unis, a étudié le comportement des utilisateurs des moteurs de recherche. Selon elle, seuls 5 % d’entre eux ont recours aux options de recherche avancées, comme les opérateurs booléens (ET, OU…), exploités pour affiner les critêres. C’est três peu. C’est pourquoi la société Hitachi a développé un moteur qui permet de préciser automatiquement les requêtes. Une fois le premier mot clé entré, le moteur propose une arborescence, suggérant d’autres termes en rapport avec le premier. De fenêtre en fenêtre, on affine ainsi la recherche en sélectionnant le vocable le plus pertinent. De son côté, l’entreprise Nec a développé un moteur nommé Inquirus qui précise pour chaque document sélectionné plusieurs mots clés significatifs, choisis à l’intérieur même de la page Web.

Steve Lawrence, chercheur chez Nec, a mis au point un outil de recherche qui précise le contenu des sites sélectionnés.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


David Groison