S'abonner :  Newsletters    Magazines
Logiciel Matériel Télécoms Sécurité Médias Droit et conso Techno Vu sur le Web Business Chat Innovation
[ INTERNET ]
La Bibliothèque nationale prête à immortaliser le Web français
Après cinq ans d'expérimentations, la Bibliothèque nationale de France est fin prête pour relever l'immense défi d'archiver le Web français. Elle n'attend plus que le feu vert législatif qui rendra obligatoire le dépôt légal des sites.

Yannick Arrieux , 01net., le 23/06/2004 à 17h36

Recueillir et conserver la mémoire d'Internet pour les générations futures, tel est le défi immense que doit relever la Bibliothèque nationale de France (BNF). Le pari est d'autant plus audacieux que, jusqu'à présent, éditeurs et producteurs de sites Web n'étaient pas soumis au fameux dépôt légal. Cette règle impose à tout éditeur, imprimeur, producteur, distributeur, ou importateur de documents d'en effectuer le dépôt auprès des organismes désignés par la loi.

Ce vide juridique sera comblé dans les prochains mois. Un projet de loi relatif au « droit d'auteur et droits voisins dans la Société de l'information » étendra l'obligation « aux personnes qui éditent et produisent les sites Internet ». La BNF pourra reproduire les sites et les proposer en consultation aux chercheurs « sans avoir à requérir d'autorisation préalable, ni à verser de rémunération ». Actuellement en discussion, le projet de loi sera vraisemblablement présenté en septembre devant le Parlement. Dès la parution du décret d'application de la loi, les pages Web archivées seront accessibles aux 20 000 chercheurs français sur des postes dédiés à la BNF.

La BNF a la responsabilité de l'archivage des sites Web. En soi, c'est tout sauf une surprise puisque l'institution s'y prépare depuis 1999 . Au cours d'une conférence de presse, ses responsables ont révélé l'ampleur de la tâche : 250 000 sites publics enregistrés en .fr, 250 000 sites en .com, .org, .edu, .net et environ 4 millions de sites personnels. Et surtout, que faut-il conserver ? Le Web évolue chaque jour, des pages naissent et meurent en permanence.

« Vouloir tout archiver serait illusoire, le défi est de définir ce que l'on va conserver en déterminant des critères », rappelait ainsi Jean-Noël Jeanneney, président de la Bibliothèque nationale de France. Reste à déterminer ces fameux critères : la fréquentation des sites, leur originalité, les souhaits des producteurs et éditeurs de sites ?

Déjà cinq ans d'expérience dans l'archivage du Web

Après avoir observé des expériences similaires dans différents pays (notamment la Suède, le Canada et les Etats-Unis), la BNF a exploré différentes voies. En premier lieu, la collecte automatique de sites par des robots, qui parcourent la Toile et en collectent les contenus (pages, fichiers encapsulés et liens). « Dans ce cas, pour le repérage des sites, nous prenons en considération leur indice de notoriété (mesuré d'après le nombre de liens pointant vers eux), et l'analyse automatique des contenus par des outils linguistiques capables de traiter de grands volumes », explique Catherine Lupovici, directrice de la Bibliothèque numérique de la BNF.

Autre voie, la collecte thématique, qui consiste, pour un événement donné, à collecter l'ensemble des sites existants : pour les élections présidentielles et législatives de 2002, 1900 sites différents ont ainsi été amassés entre le 15 février et le 15 juin.

Il demeure toutefois difficile, voire impossible, de référencer le Web invisible. Le robot ne peut accéder aux pages exigeant un mot de passe par exemple. Seul le dépôt légal peut résoudre le problème puisque la BNF peut demander l'accès aux pages en question. Ce travail manuel s'annonce le plus fastidieux. « Un dialogue technique est alors indispensable avec l'éditeur du site », souligne Catherine Lupovici. Les producteurs sont eux-mêmes demandeurs et ce, dans un souci de conserver une trace de leurs sites à différentes étapes. A titre expérimental, plus de 100 sites ont été approchés et 36 ont finalement été déposés et intégrés.

Collaborant par ailleurs depuis 2003 avec 11 bibliothèques au sein du Consortium international pour la préservation d'Internet (IIPC), notamment afin de partager des compétences techniques et de peser sur les décisions gouvernementales, la BNF semble fin prête. Vu l'ampleur de la tâche, il vaut mieux.


>Jeu de course :
Need For Speed Shift
créé par des pilotes pour des pilotes !

publicité
Sorties de salles
A voir sur 01men les réactions des spectateurs sur Paranormal activity.

classement FAI
Retrouvez chaque semaine le classement des fournisseurs d'accès avec ip-label 1 Numericable 2 Free 3 Bouygues Telecom > Plus de détails
offres d'emploi
NOUVEAU sur Windows
Tout le Web sur votre bureau : plus d’un millier de flux et widgets…

Service 01net
Newsletters 01net
abonnez vous gratuitement !
  
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.