Passer au contenu

Grub, le moteur de recherche indexé par ses utilisateurs

Le projet Grub fédère des particuliers dans le but d’utiliser la puissance des processeurs de chacun de leurs ordinateurs afin de classer, en tâche de fond, le web en permanence.

Une communauté de plus d’un millier d’utilisateurs assurant l’indexation des pages et documents du web : le calcul distribué s’attaque désormais aux moteurs de recherche. C’est l’affaire du projet
Grub, piloté par la société Looksmart.Celui-ci propose aux internautes de télécharger un petit logiciel sur leur PC, exploitant en tâche de fond ou sous forme d’économiseur d’écran la puissance inutilisée de leur ordinateur, pour partir à la recherche de sites
web. Le but : fédérer les découvertes de chacun des internautes participants afin de créer un index géant, regroupant la totalité des URL et des documents constituant le contenu d’internet.Une tâche énorme quand on estime que ce dernier comporte plusieurs centaines ?” voire milliers ?” de milliards de documents. Mais l’objectif du projet est plus ambitieux. Il souhaite réindexer quotidiennement
tout le web pour s’assurer de la pertinence et de la fraîcheur des adresses de la base ainsi constituée.

Une indexation de 120 millions de pages par jour

Grub compte aujourd’hui 1 200 utilisateurs dans le monde assurant l’indexation de 120 millions de pages par jour. Ce chiffre, déjà énorme, est à rapprocher des performances des ‘ gros ‘
outils de recherche et d’indexation du marché, comme Google, qui indexe environ 150 millions de pages. Ce dernier s’appuie sur un réseau d’environ 50 000 serveurs dans le monde. ‘ La plupart des moteurs mettent à jour leur catalogue une fois par mois en raison d’un problème informatique inhérent simple : ils ne peuvent pas le faire plus rapidement, explique
Pete Adams, Chief Technology Officer de Looksmart. Notre but est de parcourir chaque document d’internet tous les jours. Nous pourrons le faire en augmentant le nombre de personnes mettant à disposition la puissance de calcul
de leur machine. ‘
Mais l’initiative n’est pas exempte de failles. D’abord, il sera difficile pour Looksmart de se protéger d’une catégorie d’utilisateurs qui chercheront à remonter de fausses informations à
l’index pour donner plus de poids à certains sites web commerciaux. Ensuite, peu de pages ou de documents web sont modifiés chaque jour, relativisant ainsi l’intérêt du travail de Grub. Le vrai défi serait d’améliorer la
pertinence des outils de recherche sur cet index… Ceci n’est pas à l’ordre du jour.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Eric Khosta