Passer au contenu

Patrimoine numérique, patrimoine en péril

Le volume d’informations numériques ne cesse de croître. Comment la BNF et l’Ina assurent-elles leur pérennité ? Comment sauver ses propres données ?

Quelle quantité d’informations numériques les hommes peuvent-ils produire chaque année ? La question introduit de nouvelles échelles de grandeurs, vite inimaginables. 1,4 milliard de gigaoctets, soit 1,4 exaoctet en 1999, puis 5 milliards de gigaoctets en 2002, répondirent, à trois ans d’intervalle, des chercheurs de l’université californienne de Berkeley. Par la suite, avec l’explosion du numérique, il apparut plus judicieux d’estimer la capacité mondiale disponible de stockage numérique, qu’il s’agisse de disques durs, de CD, de DVD, de bandes magnétiques, de mémoires flash et vive. Gare au vertige : c’est un total de 264 milliards de gigaoctets en 2007, selon une étude du cabinet IDC. Le chiffre, mis à jour l’an dernier, atteint 800 milliards de gigaoctets pour 2009. La pile de DVD que cela représente couvrirait la moitié de la distance de la Terre à Mars. L’étude fait aussi une folle prévision : cette capacité de stockage sera multipliée par 44 en 2020, pour atteindre 35 000 milliards de gigaoctets, soit 35 zettaoctets ! Une publication en février complète le panorama. Selon les calculs de chercheurs de l’université de Californie du Sud, en 2007, les technologies de diffusion, comme la télévision, la radio et le GPS, ont transmis 1 900 milliards de gigaoctets (1,9 zettaoctet). La même année, ce sont 65 milliards de gigaoctets (65 exaoctets) que les technologies dites bidirectionnelles, comme le téléphone mobile, ont convoyés. Dans le même temps, la part de l’analogique dans le support de l’information a fondu au point de devenir marginale.

Une charte mondiale

C’est pourquoi l’Unesco a adopté, dès 2003, une charte sur la conservation de ces 0 et 1 qui constituent désormais “ notre héritage du passé, ce avec quoi nous vivons aujourd’hui, et ce que nous transmettons aux générations futures ”. Un patrimoine numérique gigantesque et fragile. L’obsolescence rapide du matériel informatique, dont la disparition des lecteurs de disquettes n’est qu’une illustration, et des logiciels qui ont servi à le créer, le menacent de disparition. Un danger qui guette tout le monde ? entreprises, administrations, particuliers ? et tous les domaines.Dans un tel contexte, quelles sont les mesures envisageables pour préserver notre patrimoine numérique et le transmettre ? En France, deux institutions sont souvent citées en exemple, la Bibliothèque nationale de France (BNF) et l’Institut national de l’audiovisuel (Ina). Leur stratégie : multiplier les copies, les supports, et les sites de conservation. Les quatre tours-livres de la BNF, situées à proximité de la Seine, abritent, entre autres, 14 millions de livres et d’imprimés, 250 000 manuscrits, 360 000 périodiques, 12 millions d’estampes, de photographies et d’affiches, plus de 800 000 cartes et plans, 2 millions de pièces musicales… Une collection exceptionnelle amassée grâce au dépôt légal. Lequel, instauré par François 1er en 1537, oblige chaque éditeur à fournir gracieusement deux exemplaires de tout ce qu’il commercialise. Livres, journaux, CD, DVD, K7, jeux vidéo sont concernés. Les tours protègent aussi un trésor numérique de 1,5 million de gigaoctets (soit 1,5 petaoctet). Il se compose d’ouvrages et de journaux numérisés, disponibles en partie sur Gallica (http://gallica.bnf.fr), de photos, et, depuis le 1er août 2006, de pages Web produites en France, désormais sujettes, elles aussi, au dépôt légal. De plus, les éditeurs qui le souhaitent peuvent confier une version numérique des ouvrages papier. “ La BNF a 500 ans de papier derrière elle, 500 ans de numérique devant elle ”, résume, enthousiaste, Arnaud Beaufort, directeur général adjoint de la bibliothèque. Afin de protéger les précieux contenus, la BNF s’est équipée en 2009 d’un “ coffre-fort numérique ” Spar (Système de préservation et d’archivage réparti). Comment fonctionne-t-il ? Qu’il s’agisse de photos, de livres ou de pages Web, Spar ne voit que des objets numériques. Il enregistre l’exemplaire principal sur des bandes magnétiques spécialement conçues pour le stockage des bits. Son travail ne s’arrête pas là : il vérifie la qualité de chaque enregistrement au moins tous les deux mois, le recopie si besoin sur une bande neuve, convertit les fichiers concernés quand un changement de format est requis, crée les versions de consultation destinées au public. Un travail de titan permanent et automatisé afin de limiter les risques de perte. Ainsi, un livre numérisé existe en trois exemplaires. Le premier sur bande magnétique, le deuxième sur disque dur. Quant au troisième, il est stocké sur une bande magnétique technologiquement différente du premier enregistrement, et physiquement située sur un site de secours hors de Paris. Une précaution loin d’être superflue : dans sa courte vie, la BNF a déjà connu un incendie et une inondation.

Un archivage en Tiff

Quant aux formats numériques, leur choix résulte d’une concertation entre les conservateurs et les responsables informatiques. “ Au début, les images étaient stockées en Jpeg par manque de place, se souvient Thomas Ledoux, chef de projet Spar. Mais la perte d’informations était trop grande. ” Les images sont désormais en Tiff, format sans perte pour l’archivage, et en Jpeg pour la consultation. L’utilisation du Jpeg 2000 est en cours de réflexion, mais pour l’instant les logiciels qui permettent de le manipuler sont trop peu nombreux. Dans le cas de la numérisation des livres, les images des pages sont accompagnées d’un fichier qui reprend le texte qui y figure et décrit précisément l’emplacement de chaque caractère, dans un format appelé Alto. Les pages Web sont, elles, stockées dans un format d’archivage reconnu, ARC, qu’utilise notamment le site américain Internet Archive. Sauvegarder des objets numériques, c’est bien, mais ça n’a pas de sens sans explication. A chaque objet numérique sont ainsi attachées des données de préservation, des métadonnées. Elles fournissent des informations intellectuelles et techniques sur leur contenu. De quoi s’agit-il ? Comment le fichier a-t-il été obtenu ? Elles serviront, par exemple, à retrouver puis à corriger des fichiers dont on s’aperçoit par la suite que le calibrage était mauvais. En cas de conversion d’un fichier, l’original est toujours conservé, ainsi que le fichier émanant de la précédente transformation. Pour environ un million d’exemplaires uniques, ce sont 1,4 milliard de fichiers qu’il faut gérer. Ce qui a un prix : la maintenance de Spar coûte 300 000 euros par an.

Ne perdre aucune donnée

D’une certaine façon, le travail de l’Ina paraît plus simple. L’institut s’occupe du dépôt légal de la radio et de la télévision, lequel concerne toutes les émissions françaises diffusées pour la première fois. Pour simplifier la tâche, depuis 2009, l’Ina enregistre en permanence et en numérique les chaînes télé et radio concernées. Cela représente 89 télévisions, auxquelles le CSA peut décider d’en ajouter d’autres pour les surveiller, soit une centaine au total, et 20 radios nationales. Ce sont les documentalistes qui trient et indexent les contenus du million d’heures de programmes ainsi collectées chaque année.A Bry-sur-Marne (93), où se situe l’Ina, à l’exception d’Arte reçue par satellite, les flux télé arrivent par fibre optique, la TNT et le satellite venant en secours en cas de défaillance technique. “ Notre problème, en raison des volumes, c’est d’être sûr que nous avons tout reçu ”, précise Valérie Chaumelle-Serrus, chef du service de collecte du dépôt légal. Les flux sont donc testés régulièrement. Derrière un mur d’écrans sur lequel défile en mosaïque la centaine de chaînes, de banals PC – les logiciels qui tournent dessus le sont beaucoup moins – enregistrent les flux en continu sur leur disque dur. Un automate les grave ensuite sur des DVD, destinés à la consultation, en ajoutant au préalable un fichier de description précisant la chaîne et la date. A raison d’un DVD pour 24 heures de programmes stockés en Mpeg4 et de deux copies par chaîne, la production quotidienne atteint 200 DVD. Pour limiter les risques, une deuxième copie est réalisée sur un graveur différent. En parallèle, cette fois dans la meilleure qualité possible à des fins d’archivage, les flux sont aussi enregistrés sur des bandes magnétiques numériques, en deux exemplaires.Les radios reçoivent un traitement similaire. Par jour, chacune remplit 2 CD avec un son compressé en Mpeg 1 layer 2, et 4 DVD avec un son non compressé au format AIFF. Le tout, là aussi, est produit en double. Au final, pour le dépôt légal de la radio et de la télévision, un jeu de copies part dans la salle des collections audiovisuelles de la BNF tandis que l’autre reste dans les locaux de l’Ina. Tout est mis en œuvre, du choix des supports jusqu’à leurs conditions de stockage, pour assurer le maintien des supports sur 10 ans, avant une inévitable migration.

Des exemples à suivre

De ces deux exemples institutionnels, le particulier peut s’inspirer pour préserver son petit mais ô combien inestimable patrimoine numérique. En premier lieu, que sauvegarder ? Trier est primordial, car du volume des données numériques que l’on souhaite conserver dépendra le temps qu’il faudra lui consacrer. Privilégier les fichiers personnels est une évidence. La sauvegarde d’un MP3 du titre de l’année présente peu d’intérêt, les éditeurs s’occuperont de son avenir numérique. Vient ensuite le choix du format des fichiers. La BNF et l’Ina montrent l’exemple à suivre : des formats très répandus, si possible ouverts, de préférence non compressés, et aussi indépendants que possible des versions des logiciels. Le PDF pour les fichiers bureautiques, le Mpeg pour les films familiaux, le Tiff, ou à la rigueur le Jpeg très peu compressé pour les photos, le Wav pour l’audio, semblent bien indiqués.Aux fichiers, il est ensuite impératif d’associer un équivalent des métadonnées des systèmes d’archivage professionnel. D’associer à une photo, par exemple, une date, un lieu, comme on le fait au dos des tirages papier. Il est possible de glisser de telles infos dans le nom du dossier, ou bien d’ajouter un simple fichier texte précisant le contexte. Pour les photos, il est aussi judicieux de renseigner les données IPTC (des mots-clés enregistrés dans la photo), aujourd’hui gérés par des logiciels.Enfin, quel que soit le support sur lequel se porte la préférence, celui-ci n’est pas éternel. Il sera donc indispensable de transférer régulièrement ses souvenirs numériques d’un support à l’autre. Disques durs, disques optiques sont possibles. La mémoire flash, sujette aux fuites électriques, est moins conseillée pour un stockage à long terme. Si l’on suit les exemples de la BNF et de l’Ina, la meilleure stratégie est de multiplier les technologies, les copies et les sites de stockage. Par exemple, conserver une première copie sur un disque dur chez soi, graver une seconde sur des DVD que l’on placera chez un parent. Puis, tous les deux ans, renouveler l’un des deux supports. Avec le stockage en ligne, un nouveau marché est aussi en train d’émerger. Une solution intéressante à condition qu’elle ne soit pas unique.

Le papier toujours d’actualité

Dernière solution à ne pas négliger : conserver aussi des versions analogiques de son patrimoine numérique. Ne pas hésiter à imprimer ses clichés. C’est, après réflexion, le choix de l’agence nationale pour la gestion des déchets radioactifs. Afin de transmettre aux générations futures les informations nécessaires sur les centres de stockage dits en surface, des impressions sur un papier spécial, capables de résister aux assauts du temps plusieurs centaines d’années, remplacent désormais les fichiers numériques, dont la pérennité sur la même durée n’est pas garantie.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Olivier Lapirot