Passer au contenu

Sous le capot d’un moteur de recherche

Les moteurs de recherche sont des outils précieux pour obtenir des infos sur le Web. Mais comment fonctionnent-ils ? AltaVista, pionnier du genre, nous dit tout…

Les moteurs de recherche semblent toujours avoir réponse aux questions des internautes. Apprenez-vous la carte du Web par c?”ur ?N’exagérons pas. Le contenu du Web évolue chaque jour ; il est impossible de le mémoriser entièrement. J’utilise en fait un robot logiciel ­ appelé familièrement spider (araignée) ­ pour visiter régulièrement les pages, suivre les nouveaux liens et découvrir de nouveaux sites. Les informations collectées par ce programme sont ensuite rapatriées dans la base de données où je fais mes recherches.De nouveaux sites se créent tous les jours. Comment les découvrez-vous ?Le webmestre qui réalise et met à jour un site a tout intérêt à m’indiquer son adresse en se rendant sur ma page d’accueil. Elle sera ainsi ajoutée à la liste de celles à visiter. D’autre part, lorsque l’araignée rencontre des liens inconnus sur une page, elle s’y rend et, si besoin, mémorise les nouvelles informations dans ma base de données.Et cet index est mis à jour souvent ?Tout dépend de l’évolution des sites ! Au pire, mon robot araignée rafraîchit complètement l’index en quatre à six semaines. Mais je remets à jour les sites les plus populaires quotidiennement, ce qui représente tout de même 8 à 16 millions d’adresses.Votre base ne contient pas que ces pages ?Non, elle comprend plus d’un milliard d’objets : pages Web, images, sons, vidéos, fichiers divers.Parmi toute cette masse de données, comment faites-vous pour trouver les informations demandées ?Dans mon index, je mémorise tous les mots présents dans les pages Web visitées par l’araignée, et ceux contenus dans leurs intitulés et adresses. C’est en comparant ces mots avec ceux de la recherche de l’internaute que je vais dresser ma liste de résultats. A ce stade, il s’agit de traitement informatique classique, guère différent d’une recherche dans un dictionnaire ou une encyclopédie numérique.Puisque vous fournissez plusieurs réponses, souvent des dizaines, comment les classez-vous ? Pas au hasard, tout de même ?J’utilise près de 90 critères différents pour classer les résultats de chaque requête.S’il existe des critères précis pour classer les liens, pourquoi les autres moteurs ne présentent-ils pas les mêmes résultats pour une question identique ?La recherche sur le Web, c’est comme la cuisine. Les recettes de base sont identiques, mais comme à chaque chef correspond un tour de main, les plats diffèrent de l’un à l’autre. Que ce soit pour classer les documents dans nos index respectifs ou pour répondre à une requête précise, nous utilisons tous des algorithmes différents. Ces programmes étant propres à chaque moteur de recherche, les résultats qu’ils proposent varient.Vous devez être doué en langue pour comprendre des demandes vous parvenant du monde entier ?Oui et non. Mes algorithmes de recherche ne comprennent pas le langage humain. Il faut donc que je leur découpe la question dans un langage logique. Dès que vous lancez une recherche avec plusieurs expressions, j’ajoute ‘ AND ‘ (terme anglais signifiant ET) entre chaque mot pour indiquer au programme qu’il ne doit rapporter que des résultats les contenant tous. Si vous tapez ‘ Martin Luther King ‘,je ne vous donnerai pas la liste des sites contenant seulement le mot Martin ou King !Mais si je souhaite que vous me trouviez les sites traitant de Paris ou de Londres ?la réponse est dans la question ! Vous devez m’indiquer un autre opérateur, ‘ OR ‘ (terme anglais signifiant OU), afin que je comprenne que je dois chercher à la fois les sites sur Paris, ceux sur Londres et ceux traitant des deux villes. En clair, votre requête doit être formulée ‘ Paris OR Londres ‘. Il existe aussi l’opérateur ‘ NOT ‘. Il m’indique qu’il faut exclure tel ou tel terme de la recherche. Bien entendu, vous n’avez pas à les connaître tous. En cliquant sur le lien ‘ plus de précision ‘ affiché sur ma page d’accueil, vous arriverez sur une page permettant d’affiner votre recherche de façon très simple. Mes collègues proposent aussi un service équivalent, sous le nom ‘ recherche avancée ‘ chez Google et Alltheweb par exemple.Comment faites-vous pour comprendre qu’une recherche doit être faite en français, ou sur des pages françaises et non sur l’ensemble du Web ?Chaque langue a ses particularités : caractères accentués ou non, fréquence des lettres, etc. Lorsqu’il parcourt le Web, mon logiciel sait reconnaître ces différences d’une langue à l’autre. Il sait aussi reconnaître quel pays héberge la page. Ces deux informations sont ensuite stockées dans l’index et, comme toutes les autres, servent de filtres pour une recherche.Si vous classez tout par mots-clés, comment faites-vous pour retrouver des images ou des sons ?Souvent, ces fichiers ne sont pas placés anonymement sur le Web. S’ils ne contiennent pas de mots eux-mêmes, leur nom en contient toujours. C’est une première piste de recherche.Vous admettrez tout de même que, parfois, vous livrez des résultats qui n’ont franchement rien à voir avec la recherche. Vous n’êtes pas si malin que ça !Je l’avoue. Je ne suis qu’un logiciel aidé par un robot fureteur. Le vrai sens des mots m’échappe.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Stéphanie Chaptal