Passer au contenu

La Bibliothèque nationale prête à immortaliser le Web français

Après cinq ans d’expérimentations, la Bibliothèque nationale de France est fin prête pour relever l’immense défi d’archiver le Web français. Elle n’attend plus que le feu vert législatif qui rendra
obligatoire le dépôt légal des sites.

Recueillir et conserver la mémoire d’Internet pour les générations futures, tel est le défi immense que doit relever la Bibliothèque nationale de France (BNF). Le pari est d’autant plus audacieux que, jusqu’à
présent, éditeurs et producteurs de sites Web n’étaient pas soumis au fameux dépôt légal. Cette règle impose à tout éditeur, imprimeur, producteur, distributeur, ou importateur de documents d’en effectuer le dépôt auprès des organismes
désignés par la loi.Ce vide juridique sera comblé dans les prochains mois. Un projet de loi relatif au ‘ droit d’auteur et droits voisins dans la Société de l’information ‘ étendra l’obligation ‘ aux personnes
qui éditent et produisent les sites Internet ‘.
La BNF pourra reproduire les sites et les proposer en consultation aux chercheurs ‘ sans avoir à requérir d’autorisation préalable, ni à verser de
rémunération ‘.
Actuellement en discussion, le projet de loi sera vraisemblablement présenté en septembre devant le Parlement. Dès la parution du décret d’application de la loi, les pages Web archivées seront accessibles aux
20 000 chercheurs français sur des postes dédiés à la BNF.La BNF a la responsabilité de l’archivage des sites Web. En soi, c’est tout sauf une surprise puisque
l’institution s’y prépare depuis 1999. Au cours d’une conférence de presse, ses responsables ont révélé l’ampleur de la tâche :
250 000 sites publics enregistrés en .fr, 250 000 sites en .com, .org, .edu, .net et environ 4 millions de sites personnels. Et surtout, que faut-il conserver ? Le Web évolue chaque jour, des pages naissent et meurent
en permanence.‘ Vouloir tout archiver serait illusoire, le défi est de définir ce que l’on va conserver en déterminant des critères ‘, rappelait ainsi Jean-Noël Jeanneney, président de la Bibliothèque nationale
de France. Reste à déterminer ces fameux critères : la fréquentation des sites, leur originalité, les souhaits des producteurs et éditeurs de sites ?

Déjà cinq ans d’expérience dans larchivage du Web

Après avoir observé des expériences similaires dans différents pays (notamment la Suède, le Canada et les Etats-Unis), la BNF a exploré différentes voies. En premier lieu, la collecte automatique de sites par des robots, qui parcourent
la Toile et en collectent les contenus (pages, fichiers encapsulés et liens). ‘ Dans ce cas, pour le repérage des sites, nous prenons en considération leur indice de notoriété (mesuré d’après le nombre de liens pointant vers
eux), et l’analyse automatique des contenus par des outils linguistiques capables de traiter de grands volumes ‘,
explique Catherine Lupovici, directrice de la Bibliothèque numérique de la BNF.Autre voie, la collecte thématique, qui consiste, pour un événement donné, à collecter l’ensemble des sites existants : pour les élections présidentielles et législatives de 2002, 1900 sites différents ont ainsi été
amassés entre le 15 février et le 15 juin.Il demeure toutefois difficile, voire impossible, de référencer le Web invisible. Le robot ne peut accéder aux pages exigeant un mot de passe par exemple. Seul le dépôt légal peut résoudre le problème puisque la BNF peut demander
l’accès aux pages en question. Ce travail manuel s’annonce le plus fastidieux. ‘ Un dialogue technique est alors indispensable avec l’éditeur du site ‘, souligne Catherine Lupovici. Les producteurs
sont eux-mêmes demandeurs et ce, dans un souci de conserver une trace de leurs sites à différentes étapes. A titre expérimental, plus de 100 sites ont été approchés et 36 ont finalement été déposés et intégrés.Collaborant par ailleurs depuis 2003 avec 11 bibliothèques au sein du Consortium international pour la préservation d’Internet (IIPC), notamment afin de partager des compétences techniques et de peser sur les décisions
gouvernementales, la BNF semble fin prête. Vu l’ampleur de la tâche, il vaut mieux.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Yannick Arrieux