En trois ans, l'IA a fabriqué un tiers des nouveaux sites web

On nous promet depuis des mois un « internet mort », envahi de robots qui parlent à d’autres robots. Des chercheurs ont décidé de vérifier. Une équipe de Stanford, d’Imperial College London et de l’Internet Archive vient de publier une étude intitulée The Impact of AI-Generated Text on the Internet. C’est la plus vaste jamais consacrée au sujet. Son chiffre principal : 35 % des sites web créés depuis fin 2022 seraient générés ou assistés par IA, selon 404 Media qui a révélé les résultats. De zéro à un tiers en trois ans. La « théorie de l’Internet mort » vient de recevoir son premier début de validation empirique.

Comment les chercheurs ont mesuré la contamination

L’équipe a exploité les archives de la Wayback Machine pour extraire des échantillons de sites publiés entre août 2022 et mai 2025. Soit 33 mois de production web passés au crible. Le HTML brut de chaque page a été téléchargé, nettoyé, puis analysé par Pangram v3, un détecteur de texte IA jugé le plus fiable après comparaison avec trois concurrents. Une fois les sites classés « IA » ou « humain », les chercheurs ont testé six hypothèses courantes sur les effets du contenu synthétique.

Sur les six, seules deux ont été confirmées. L’IA rend bien le web moins divers sémantiquement : mêmes tournures, mêmes structures, même vocabulaire lissé d’un site à l’autre. Et plus positif dans le ton. Le web généré par IA sourit en permanence, si l’on peut dire. En revanche, pas de hausse mesurable des affirmations factuellement fausses. Pas plus de mensonges vérifiables, pas moins de liens vers des sources. Le web IA n’est pas plus trompeur que le web humain (ce qui en dit peut-être autant sur nous que sur les machines).

35 % ou 74 % : pourquoi les chiffres divergent

Le chiffre de 35 % n’est pas le seul à circuler. Une autre étude, menée sur près d’un million de pages web en 2025, estimait que 74,2 % des nouvelles pages contenaient du contenu généré par IA. L’écart s’explique par le périmètre. Stanford mesure des sites entiers classifiés comme majoritairement IA. Ahrefs compte des pages individuelles contenant ne serait-ce qu’une trace de texte assisté. C’est la différence entre « cette maison a été construite par un robot » et « un robot a posé au moins une brique ». Les deux chiffres sont vrais, mais ils ne racontent pas la même histoire.

Pour les chercheurs, le plus préoccupant n’est pas la quantité. C’est la convergence stylistique. Un tiers du web neuf est écrit par les mêmes modèles de langage, entraînés sur les mêmes données. Des modèles calibrés pour être « parfaitement conformes et agréables », selon les mots d’un co-auteur de l’étude. Le risque n’est pas la désinformation. C’est la monoculture. Un web où toutes les voix se ressemblent et où les aspérités disparaissent au profit d’un consensus mou généré à la chaîne.

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source : 404 Media