Passer au contenu

L’archivage numérique en quête de sens

Stocker des téraoctets de données n’a rien d’extraordinaire. Mais en extraire des informations pertinentes relève parfois de l’exploit. À moins qu’un travail préalable d’indexation n’ait été réalisé .

Steven Spielberg vient d’achever un projet titanesque : la création d’une base de données accueillant les témoignages de quelque 50 000 survivants de l’holocauste. Depuis le lancement du projet Shoah Visual History (SVH), juste après la sortie de son film La liste de Schindler, en 1993, 116 000 heures d’images ont été tournées par l’équipe constituée autour du réalisateur. Ce qui, en terme de données archivées, représente l’équivalent de 180 millions de disquettes ! Près de neuf fois la base du Congrès des États-Unis, jusqu’alors considérée comme la plus importante au monde. Les projets de cette ampleur se multiplient.Parmi eux, celui du réseau de télévision CNN, qui a fait appel à Sony et IBM pour numériser ses archives. Il faudra tout de même plus de cinq ans ?” il en faudrait dix pour les visionner en intégralité ?” pour traiter les 115 000 heures de reportages de la chaîne, pour un coût de 20 millions de dollars (22,9 millions d’euros).

Huit heures pour indexer une heure de vidéo

Les acteurs du secteur de l’archivage ne manquent donc pas de matière. Ils rivalisent d’innovations pour s’imposer sur un marché évalué à 500 millions de dollars pour l’archivage texte et à 4 milliards de dollars pour l’archivage multimédia. Pour des travaux d’envergure, comparables à ceux du SVH ou de CNN, l’indexation des données est déterminante. Si la tâche est aisée pour des documents textuels, il en va bien autrement pour une image ou un film. Dans ces derniers cas, les fichiers numériques doivent être stockés avec du texte attaché décrivant avec précision les images fixes ou séquences vidéo. “Dans de nombreux cas, cette indexation se fait encore à la main, en rédigeant noir sur blanc des descriptifs“, constate Jay M’Bey, responsable France de la société américaine Convera, spécialisée dans l’archivage numérique et issue de la fusion entre Excalibur Technologies et la division Interactive Media Services d’Intel.À titre indicatif, les équipes qui ont travaillé sur le projet SVH ont mis en moyenne huit heures pour indexer une heure de vidéo ! Convera propose donc un outil d’indexation automatique des plans vidéos. “Le programme crée de lui-même une étiquette dès qu’il détecte une action ou un changement de plan“, explique Jay M’Bey. Ainsi, contre-attaques, buts et autres cartons colorés seront scrupuleusement recensés pour indexer un match de football. “ Ce qui permettra par exemple aux chaînes de télévision de retrouver la séquence précise qui illustre leur propos, au lieu de se contenter d’un passage éloigné“, insiste Jay M’Bey. Convera a notamment fourni ses logiciels à la chaîne francophone TV5 pour l’archivage de son fonds documentaire.

Les Musées nationaux et la RATP font partie des premiers clients

L’indexation n’est qu’une première étape. Encore faut-il, ensuite, que les moteurs de recherche soient à la hauteur ! La start-up francilienne Armadillo a conçu un système d’indexation et un moteur de recherche qui ont séduit, entre autres, la Réunion des musées nationaux et la RATP pour leur photothèque. Particularité du moteur de recherche développé par Armadillo : l’utilisation du langage naturel. L’équipe de Convera est allée encore plus loin. Elle travaille en effet au niveau de la valeur binaire des lettres et non pas des mots. En clair, les fautes d’orthographes éventuelles ne sont pas prises en compte.Ce système peut également être appliqué à la recherche d’images. “Nous essayons de mimer le fonctionnement de l’?”il humain. Notre technologie permet par exemple de rechercher des images qui se ressemblent“, précise Jay M’Bey. Reste ensuite à assurer la mise à disposition des documents de telles archives aux personnes intéressées. “Nous nous occupons du stockage de ces fonds documentaires dans une librairie générale et en contrôlons le droit d’accès“, explique Stéphane Castagne, directeur commercial de la société américaine Wam Net. Mieux, la société fournit à ses clients un réseau sécurisé ultra rapide, permettant la circulation des données.”Travailler via internet n’est pas très professionnel : il n’existe aucune réelle garantie de débit ou de sécurité“, insiste Stéphane Castagne. Diverses séquences du film Gladiator ont ainsi transité à travers les tuyaux de la société lors du montage du futur film culte.

🔴 Pour ne manquer aucune actualité de 01net, suivez-nous sur Google Actualités et WhatsApp.


Agathe Remoué