Passer au contenu

(Mise à jour) Yahoo!/Google : bataille autour du nombre de pages indexées

La polémique continue autour du réalisme des annonces de Yahoo! sur le nombre de documents référencés par son moteur. Une deuxième étude est publiée, sans faire l’unanimité.

Première publication le 19 août 2005Yahoo!/Google : bataille autour du nombre de pages indexéesLes spécialistes s’affrontent pour savoir si le nombre de documents référencés, annoncé par Yahoo, est réaliste ou pas.Mensonges, bidonnages, imprécisions ou juste complexité ? Une querelle à rebondissements fait rage en ce moment autour du nombre de pages réellement indexées par les grands moteurs de recherche. Yahoo! a donné involontairement le
top départ de l’affrontement en
annonçant lundi 8 août que son index contenait désormais 19,2 milliards de ‘ documents Web ‘ (les images et les fichiers audio et vidéo
étant exclus). Or, jusqu’à présent, le champion, c’était Google.Depuis novembre 2004, le compteur disposé en bas de sa page d’accueil annonçait plus de 8 milliards de pages ‘ recensées ‘. Petite subtilité, le fait de ‘ recenser ‘ des
pages ne signifie pas qu’il en connaît le contenu.

10 000 requêtes analysées

Quelques jours plus tard, le très réputé National Center for Supercomputing Applications (NCSA) publiait une
étude réalisée par trois chercheurs qui concluaient ?” calculs à l’appui ?” que ‘ l’affirmation de Yahoo! selon laquelle
ils disposent d’un index Web deux fois plus gros que celui de Google est suspecte ‘.
Pour arriver à cette conclusion, ils ont demandé à leurs ordinateurs d’effectuer plus de 10 000 requêtes auprès des deux moteurs de recherche. Chaque requête était composée de deux mots choisis au hasard dans iSpell,
une
liste de 135 000 mots anglais. Or, en moyenne, Google proposait trois fois plus de réponses que Yahoo! Comment donc imaginer que Google puisse disposer d’un index
deux fois plus petit que Yahoo!. Logique ? Pas tant que ça !

Une erreur majeure

‘ La méthodologie utilisée par les chercheurs du NCSA comporte trois erreurs, dont l’une invalide totalement la conclusion de l’étude, ‘ explique Jean Véronis,
linguiste-informaticien à l’université de Provence et animateur du
blog Technologies du langage. Choisir des couples de mots pris au hasard est un non-sens, s’emporte-t-il. Lorsque vous faites cela, vous avez toutes les
chances de constituer des associations que l’on ne retrouve jamais dans des documents courants. Du coup, les réponses fournies par les moteurs de recherche pointent soit vers des documents mis en ligne par des spammeurs et comportant des
listes interminables de mots
[afin d’améliorer le référencement de leurs documents par les moteurs, NDLR] soit… sur des copies du dictionnaire iSpell. A la limite, tout ce que l’étude pourrait prouver,
c’est que le filtre antispam de Yahoo! est plus efficace que celui de Google, c’est tout. ‘
Quant à savoir combien de pages sont réellement indexées par les moteurs de recherche : ‘ C’est aujourd’hui impossible ‘, répond Jean Véronis. Tout au plus peut-on tenter
d’analyser l’évolution d’un moteur de mois en mois. ‘ D’après mes
calculs, l’évolution du nombre de réponses fournies par Yahoo! à partir de mots courants est compatible avec le triplement annoncé de son
index ‘.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Serge Courrier