Passer au contenu

Google veut devenir la mémoire du web

Avec l’acquisition de Dejanews et l’indexation des fichiers pdf, le moteur de recherche vise l’exhaustivité.

Il était déjà réputé pour sa pertinence ; le moteur de recherche Google vise maintenant l’exhaustivité. Après avoir annoncé fin janvier l’indexation des fichiers pdf, il vient d’acquérir Dejanews, dont on savait depuis décembre dernier qu’il cherchait preneur. Le tout montre une volonté claire d’aller au-delà du simple référencement des pages HTML et de commencer à sonder le ” web invisible “.Les deux dernières annonces de Google vont dans ce sens. L’archivage des fichiers pdf répond avant tout à des nécessités d’utilisateur. Ce type de fichier regorge d’informations généralement plus qualifiées, plus précises et plus complexes que la moyenne de ce qu’on trouve en format HTML. Pour déterminer la pertinence des fichiers pdf, Google les convertit en texte, ce qui présente deux avantages : d’abord, toute recherche s’effectue en texte plein et non pas sur un résumé ; ensuite, la version texte peut être téléchargée en lieu et place de la version pdf, minimisant les temps de téléchargement. Fin janvier, 13 millions de fichiers avaient été archivés, selon Google. Dans le cas de l’acquisition de Dejanews, c’est un peu un monument de la mémoire du net qui change de mains. Google récupère en effet non seulement un nom de domaine prestigieux, mais également les archives des forums de discussions depuis 1995. Soit environ 500 millions de messages. Comme dans le cas des fichiers pdf, Google va imprimer à usenet sa marque : interface spartiate et pertinence des résultats.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Philippe Billard