Internet Archive et sa Wayback Machine sont en danger à cause de l'IA

« Préserver le Web n’est pas le problème, le perdre l’est ». C’est par ces mots que Mark Graham, le directeur en charge de la Wayback Machine sur Internet Archive a commencé sa tribune pour dénoncer les blocages de l’outil par certains éditeurs de presse.

En effet, depuis quelques semaines, certains grands groupes, comme The Guardian, le New York Times ou encore Reddit, ont verrouillé leur site pour bloquer ou limiter l’accès à leurs contenus par la Wayback Machine, empêchant de fait celle-ci de sauvegarder leurs pages Web pour les intégrer à l’archive mondiale du Web.

Ce mouvement opéré par les grands éditeurs de contenu serait motivé par la crainte que les géants de l’IA se servent d’Internet Archive comme d’une « porte dérobée » pour siphonner à grande échelle ces contenus dans le but d’entraîner leurs modèles.

Des craintes infondées qui risquent de pénaliser la mémoire du Web

Pour Mark Graham, ces craintes sont infondées. Il rappelle qu’Internet Archive, une organisation à but non lucratif qui existe depuis trente ans est devenue une source essentielle pour de nombreux professionnels comme les chercheurs, les journalistes, ou encore les tribunaux.

« Nous utilisons des mécanismes de limitation du débit (rate limiting), de filtrage et de surveillance afin d’empêcher les accès abusifs, et nous surveillons l’apparition de nouveaux schémas de scraping ainsi que nous y répondons activement dès qu’ils émergent. » explique ainsi le directeur de la Wayback Machine.

Pour lui, bloquer les bibliothèques numériques n’est pas la solution à adopter face aux défis soulevés par l’IA. Un blocage massif de cet archivage du Web pourrait en effet causer des dommages irréversibles à la mémoire collective du Web. Pire encore, cela pourrait empêcher les chercheurs de retrouver des preuves, ou encore les journalistes de pouvoir recouper ou vérifier des informations.

01net.com Avril 2000 — © 01net.com tel qu’il existait à son lancement en avril 2000. Sans la Wayback Machine et Internet Archive, ces souvenirs seraient définitivement effacés du Web.

Un véritable dilemme pour les éditeurs

En quelques mois, les capacités des grands modèles d’IA ont été décuplées. C’est sans doute la raison pour laquelle les éditeurs se sentent de plus en plus vulnérables. Certains militent d’ailleurs depuis des années pour faire cesser ce qu’ils considèrent comme un « pillage » de leurs contenus, pour « nourrir le monstre », avec des dommages et intérêts à la clé.

À lire aussi : Après l’échec des négociations entre tech et ayants droit, bientôt une nouvelle loi pour protéger les créateurs ?

Ils craignent aussi, et surtout, que l’IA générative détourne les potentiels lecteurs de leur site, en leur fournissant une réponse directe. Ce n’est d’ailleurs pas un hasard si Microsoft a récemment proposé d’arbitrer la situation en proposant de rémunérer les éditeurs lorsque leur contenu est utilisé par une IA.

Mais en bloquant l’archivage de leur site par la Wayback Machine, par crainte de se faire piller par l’IA, ne se tirent-ils pas une balle dans le pied en contribuent à la fragilisation et à la fragmentation du Web ?

👉🏻 Suivez l’actualité tech en temps réel : ajoutez 01net à vos sources sur Google, et abonnez-vous à notre canal WhatsApp.

Source : Techdirt