S'abonner :  Newsletters    Magazines


écrire à l'auteur imprimer
envoyer par mail


[ ENQUÊTE ]
Comment les sites gonflent leur audience
Pour grimper au hit-parade des adresses les plus visitées, les webmasters ont de l'imagination... et de multiples moyens de trucage, qui vont de l'astuce graphique au recours à un internaute-robot.

William Coop , Newbiz, le 18/09/2000 à 16h38

"C'est la catastrophe." Lorsqu'en mars le portail américain AltaVista découvre les résultats d'audience Media Metrix , ses dirigeants sont consternés. Trente jours avant l'introduction en Bourse, et contre toute attente, leur site accuse une chute de 10% de son trafic par rapport au mois précédent, et tombe à 12 millions de visiteurs. Un chiffre d'autant plus surprenant que les statistiques internes montrent, elles, une progression de 7 % sur la même période.

Qui a raison ? Et comment expliquer de tels écarts ? Qu'importe, le mal est fait. Les médias ont relayé la mauvaise nouvelle et AltaVista a décalé son entrée au Nasdaq. Le géant américain n'est pas le seul à se poser des questions. Ses confrères aussi. Et leurs bailleurs de fonds plus encore. Quand la santé financière d'un site dépend, totalement ou pour partie, de son volume de trafic, la fiabilité et la cohérence des statistiques d'audience sont vitales. Celles-ci deviennent les vrais baromètres de la Net-économie. Or, sur le web, contrairement à ce qui existe pour la télévision ou la presse écrite, il n'y a pas encore de «norme» de comptage qui fasse autorité.

Les sociétés d'études mènent une guerre fratricide pour imposer leur standard, et, en l'absence d'un principe unique de certification, certains patrons de sites sont tentés de profiter de la confusion et des approximations ambiantes en choisissant les chiffres qui les arrangent... ou en jouant carrément aux apprentis sorciers afin de gonfler artificiellement leur audience. Quelles sont les ficelles, plus ou moins honnêtes, et les trucages informatiques qu'utilisent ces Rapetous de l'audience ?

Les arbitres du web ne peuvent garantir la fiabilité de leurs panels

Pour comprendre les techniques qui permettent de fausser les mesures d'audience, il faut d'abord connaître les méthodes qu'utilisent les juges-arbitres du Net. Il existe deux grands types d'études : les «user centric» et les «site centric». Les premières se fondent sur les comportements des internautes et sont employées, en France, par MMXI Europe, Netvalue et, bientôt, par Médiamétrie eRatings . Les secondes analysent, à l'autre extrémité de la chaîne, le trafic des sites. Et toutes ne donnent pas les mêmes résultats, loin s'en faut (lire l'encadré 'Les résultats varient du simple au double'). Dans le cas des mesures centrées sur les utilisateurs, les internautes sont regroupés dans un panel, comme des téléspectateurs suivis par l'Audimat, qui ont, à demeure, une petite boîte noire pour consigner leurs comportements quotidiens. Ils sont recrutés par téléphone selon des critères sociodémographiques représentatifs de la population des internautes (tirage aléatoire de 40 000 contacts interrogés en continu sur l'année). Ils sont rémunérés 500 francs par an environ pour leur passivité : leur ordinateur est équipé d'un logiciel capteur, une sorte de mouchard qui trace leur navigation jour après jour. Et les données sont ensuite recueillies par le serveur de la société d'études, et elles sont analysées. La fiabilité des résultats dépend donc de la composition et de la taille des panels. Et c'est là où le bât blesse. Car, en dépit d'alliances avec les plus prestigieux prestataires pour s'acheter une caution et d'un renouvellement moyen de 30 % des échantillons chaque année, les mesureurs du web ne peuvent garantir la représentativité de leurs panels.

D'abord, parce que leurs échantillons sont trop petits. Même l'actuel leader, MMXI Europe, établit ses résultats français sur l'étude de 4 000 personnes seulement. Arielle Dinard, sa directrice générale, prévoit d'atteindre 6 000 individus d'ici à la fin de l'année. Elle envisage de lancer parallèlement un panel internautes au bureau (soit 500 personnes) pour octobre. C'est la deuxième limite : personne ne sonde les utilisateurs dans leur cadre professionnel, car les entreprises n'aiment guère qu'on installe des boîtiers chez elles.

De plus en plus de spécialistes estiment qu'il serait plus sage de recourir - c'est la seconde méthode - aux chiffres de trafic des sites, à condition d'élargir les études à tous les types d'accès au Net (PDA, téléphones, kiosques, domicile, bureau...). Diffusion Contrôle (association pour le contrôle de la diffusion des médias) tente d'ailleurs de jeter les bases d'une certification des chiffres de trafic en se réservant le droit d'effectuer des vérifications aléatoires sur les sites.

Il est difficile de prendre les sites fautifs en flagrant délit de trucage

Avec cette deuxième approche dite «site centric», on mesure principalement les visites (ou la consultation) et les pages vues avec publicité (PAP). Ces indicateurs de fréquentation s'appuient sur la technologie des marqueurs (tags). C'est une image de la taille d'un pixel (plus petite mesure de résolution équivalente à un point lumineux à l'écran) pesant en moyenne 45 octets (pour info, la page d'accueil de yahoo.fr représente près de 12 000 octets), qui se charge en même temps que la page demandée. Invisible pour l'utilisateur, elle est insérée sur toutes les pages des sites mesurés et permet de suivre en continu, à l'aide d'un serveur de contrôle indépendant, les traces de navigation d'un internaute. Chaque page visitée est alors considérée comme une requête, puis enregistrée par le serveur sous forme de fichier informatique appelé log.

Depuis un an, Cybermétrie (la mesure internet de Médiamétrie) a développé un outil baptisé Cybermonitor qu'elle vend aux sites souscripteurs (58 en juin) entre 35 000 et 100 000 francs, en fonction de l'intensité du trafic enregistré. Mais ni MSN (Microsoft), LibertySurf ou Yahoo! ne sont clients... Il est vrai que le dernier ne se fie qu'à son propre système de comptage interne audité par le cabinet Ernst & Young et certifié aux Etats-Unis par l'institut ABC Interactive (Audit bureau of ciculation), l'équivalent de notre organisme de contrôle de la diffusion des médias.

Néanmoins, la concurrence est rude : depuis 1998, la société eStat, basée à Sophia-Antipolis, propose un outil similaire pour 2 500 francs hors taxes par an à ses 200 clients français (Travelprice, Alapage, Pages Jaunes...). Quant au bordelais @tinternet, qui offre depuis 1997 un classement par audiences des sites francophones baptisé Hit-Parade, il lance, à la rentrée, un mesureur baptisé Xiti. Une quarantaine de clients (Clust, Spray, JeuxVideo.com...) auraient déjà signé pour ce service qui coûte entre 295 et 900 francs hors taxes par mois. Dans ce contexte, tout est permis. Ou presque. Bien qu'il soit difficile de prendre les webmasters sur le fait - il est dans la nature des sites de se transformer en permanence -, ils sont nombreux à reconnaître qu'il leur arrive d'utiliser des techniques plus ou moins honnêtes pour doper les statistiques de trafic sur les sites.

La plus classique ? Augmenter le nombre de pages vues en structurant le site de sorte qu'obtenir une information nécessite de cliquer au moins deux fois. Ainsi, dans la section News de TF1, si l'on clique sur un titre, on n'arrive pas sur l'article mais sur une page intermédiaire qui affiche un sommaire détaillé. Il faut à nouveau jouer de la souris pour lire la chronique dans son intégralité. Une astuce bien innocente... mais qui a pour effet de doubler le nombre de pages vues sur cette partie du site. De la même manière, la plupart des moteurs de recherche proposent des listes de résultats par groupes de 10 sur une seule page. Pour les consulter, il faut donc faire défiler les pages et augmenter, ce faisant, l'audience du site. Sur Lycos.fr , il est certes possible d'en afficher d'un seul coup 20, 30 ou même 40, mais avec la fonction de recherche avancée.

Une autre méthode consiste à cumuler les chiffres de trafic lorsque l'on monte des pages en coédition avec un autre site. Par exemple, la rubrique Emploi de TF1, est réalisée en partenariat avec Cadresonline et hébergée sur le site de la chaîne. Les tags placés sur les pages des sites respectifs sont attribués aux deux. TF1 peut se prévaloir du trafic généré par sa rubrique... et son partenaire aussi. Une information lue une seule fois compte ainsi pour les deux sites. Avec le système des panels, seules les visites sur Cadresonline seraient prises en compte, car c'est la terminaison de l'adresse URL qui définit l'attribution de la page vue ( cadresonline.com/tf1 ).

Cette «suraudience» inactive se développe aussi - et c'est plus gênant - grâce aux moteurs de recherche et aux annuaires qui visitent régulièrement les sites pour en assurer le référencement. D'autres robots utilisés pour la constitution d'une base de données fouillent continuellement le Réseau : un site qui propose des critiques de livres a recours à ce type d'engin pour rapatrier automatiquement le numéro d'ISBN ou le prix d'un ouvrage à partir des pages de BOL ou de la Fnac. Autant de connexions tout bénéfice pour ces derniers !

Conscients du problème, certains webmasters ont interdit l'accès de ces simulateurs à leurs pages. Et les instituts de mesure d'audience ont mis au point un système permettant d'identifier ces robots afin de ne plus prendre en compte ces connexions passives. Cybermétrie en a déjà exclu 300. Mais on ne peut pas tout contrôler : des logiciels comme Memoweb, vendus moins de 400 francs, permettent d'aspirer le contenu d'un site afin de le lire hors connexion. Ces aspirateurs étant considérés par les outils de mesure comme un navigateur classique, les pages rapatriées seront comptées comme des pages visitées.

Certaines techniques permettent d'amplifier les pics de consultation

D'autres méthodes sont plus douteuses. Suivant les consignes de Diffusion Contrôle, Cybermétrie demande à ses souscripteurs de ne placer qu'un marqueur par page (plus un par bandeau publicitaire). Mais, rien n'empêche techniquement un webmaster d'en intégrer plusieurs, surtout lorsque l'écran se compose de plusieurs cadres indépendants (frames). Rien ne l'empêche non plus de programmer une réactualisation artificielle de l'ensemble des frames à chaque clic d'un internaute sur l'une d'entre elles. Résultat : une seule page constituée de trois frames générera alors trois pages vues.

De même, un webmaster zélé pourra accélérer le taux de rotation des bandeaux de pub de ses annonceurs (passer de toutes les minutes à quelques secondes) ou programmer un rafraîchissement automatique rapide sur les images de sa webcam : le nombre de pages vues augmentera sans qu'un visiteur de plus se soit connecté. Les sites de sport sont tentés d'utiliser ce système lorsqu'ils affichent les résultats d'un match de football. Il suffit de proposer plusieurs tableaux (contenant chacun un tag) sur une page pour qu'à chaque but marqué une requête supplémentaire soit enregistrée, alors que l'internaute n'a pas bougé... Et personne ne s'étonnera de constater des pics de consultation pendant la période la plus chaude des rencontres !

Un logiciel générateur de trafic aurait été développé en Israël

En poussant cette logique plus loin, un webmaster peu scrupuleux peut faire appel à un robot externe pour lancer des requêtes artificielles vers l'adresse de son site à partir d'un serveur distant. Le procédé n'est pas si grossier qu'il y paraît. S'il faisait du tapage massif pendant le week-end ou aux heures creuses pour compenser les baisses de trafic d'origine domestique, le webmaster serait débusqué par les outils d'analyses. Car ceux-ci repèrent la répétition des requêtes en provenance d'une même adresse. En revanche, il peut utiliser un logiciel qui, au moindre pic de trafic - à la fin d'un match, par exemple -, programme automatiquement une démultiplication des requêtes. Le tout sans éveiller les soupçons, puisque les résultats épousent les courbes de consultation habituelles.

Surréaliste ? Pas vraiment : un webmaster nous a confié qu'un tel logiciel a été développé en Israël ! Et il est d'autant plus difficile de traquer ce tapage sauvage que les outils de mesure ne peuvent identifier que les adresses IP (Internet protocol). Celles-ci équivalent à la signature numérique d'un visiteur. En principe, chaque ordinateur ne devrait avoir qu'un numéro affecté au moment de la connexion. En réalité, le petit nombre d'adresses attribuées aux fournisseurs d'accès oblige à les redistribuer constamment. Impossible, dès lors, d'identifier formellement les visiteurs.

Certaines pages s'envolent après le passage des robots détecteurs

Tout aussi grave, le responsable d'un site peut faire en sorte que l'internaute charge des pages fantômes. La technique consiste à insérer dans une page le code HTML d'une autre page (fictive) tout en réduisant sa taille d'affichage au simple pixel. La requête s'enregistre bien auprès du serveur et l'on ne voit rien à l'écran. Autre méthode : le webmaster intègre dans le code d'une page une commande vers une deuxième page, factice. Le serveur enregistre alors deux requêtes. L'internaute, quant à lui, ne voit que la page qu'il a demandée. Mais, au total, le site a bel et bien enregistré deux pages vues.

Enfin, on peut évoquer le spamdexing , qui continue de faire les beaux jours des webmasters en mal de visites (lire l'encadré F. de Panafieu). Cette technique, illicite, permet de promouvoir abusivement un site auprès des moteurs de recherche. Une autre variante vise à insérer artificiellement dans un site un mot sans rapport avec le contenu mais souvent utilisé par les internautes lors de leurs requêtes. En tête, le mot «sexe». Même si l'internaute rebrousse chemin dès la page d'accueil, la requête aura été comptabilisée. Des petits malins vont jusqu'à écrire les mots racoleurs dans la couleur de fond de la page afin de les rendre invisibles lors d'un contrôle manuel ! D'autres soumettent des pages écrites pour les robots puis les remplacent par une page normale après le passage du robot détecteur.

Les webmasters confirment que ces méthodes continuent d'être utilisées même si «elles tendent à disparaître sous l'influence de la professionnalisation de l'internet» - et la peur de voir leur site figurer sur les listes noires des moteurs de recherche et des mesureurs. Cybermétrie et ses concurrents nient avoir été confrontés à des situations illicites. Même s'ils reconnaissent ne pouvoir tout surveiller, ils «continuent d'affiner leurs outils pour développer des statistiques fiables ». Et l'internaute, pris entre deux feux, n'est plus qu'un consommateur dupé ou surveillé selon que l'on se place d'un côté ou de l'autre de la barrière...

w.coop@newbiz.fr


>Jeu de course :
Need For Speed Shift
créé par des pilotes pour des pilotes !

publicité
> Sécurité :
Norton Antivirus 2010
La solution antivirale la plus répandue du monde.

classement FAI
Retrouvez chaque semaine le classement des fournisseurs d'accès avec ip-label 1 Orange 2 Free 3 Bouygues Telecom > Plus de détails
offres d'emploi
Logiciel : Avira Antivir Premium
Une protection complète pour surfer tranquille.

Service 01net
Newsletters 01net
abonnez vous gratuitement !
  
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.