Actualités Emploi Start-up Evénements 01 Avis d'expert Vidéos Indicateurs Distribution Telecharger Pro Livres blancs

La chasse au gaspi de l'espace disque est ouverte

La déduplication de données introduit un mécanisme d'identification et d'élimination des segments redondants. Elle suscite un vif intérêt dans le monde de la sauvegarde sur disque, car ses effets peuvent y être spectaculaires en termes d'espace gagné.
envoyer
par mail
imprimer
l'article
partager sur Viadeo
partager sur Facebook
partager sur LinkedIn
partager sur Scoopeo
partager sur Technorati
partager sur Digg
partager sur Delicious
partager sur Google
partager sur Myspace
partager sur Yahoo!

On peut rattacher la déduplication de données à la grande famille des mécanismes de compression. Capable de réduire l'espace de stockage consommé par certains systèmes de sauvegarde de plus de 90 %, cette technique suscite un vif intérêt. D'une part, elle abaisse le coût de la sauvegarde sur disque, la rendant plus compétitive avec la bande magnétique. D'autre part, elle autorise des périodes de rétentions des données plus longues.

La déduplication a pourtant fait ses premiers pas comme une fonction intégrée à certains systèmes de fichiers. Aujourd'hui, Netapp en fait une fonction à part entière de ses équipements. Sur ses serveurs de stockage, la déduplication spatiale offre ainsi des gains d'espace de 20 à 50 %, voire plus si on l'applique au stockage des serveurs virtuels (leurs disques systèmes stockent des données très largement identiques).

Un mécanisme idéal pour optimiser la sauvegarde

Mais c'est lors des opérations de sauvegarde que la déduplication, dans sa forme temporelle, s'avère la plus spectaculaire. Dans son principe, cette technique consiste à repérer et à éliminer les blocs de données redondants. Or où a-t-on le plus de chance de trouver des redondances que sur un système de sauvegarde disque à disque, sur lequel ne cessent de s'accumuler les sauvegardes complètes ? Voilà pourquoi les fournisseurs de librairies de bandes virtuelles VTL (Virtual Tape Library) ont adopté cette technologie. Les premiers retours d'expérience montrent que la réduction des espaces physiques utilisés atteint aisément un facteur de 5 à 10.

Des gains aussi importants requièrent que les données et les procédures de sauvegarde se prêtent à la déduplication. Ce qui n'est pas toujours le cas. Les données bureautiques possèdent de nombreuses redondances, les données transactionnelles beaucoup moins. Les flux multimédias, souvent déjà compressés, ne sont pas de bons candidats à la déduplication. Et le chiffrement des données avant leur sauvegarde rend la déduplication inopérante. De même en ce qui concerne les sauvegardes incrémentales, puisqu'elles ne prennent en compte que les données nouvelles et les copies instantanées.

Quelle fiabilité et quelle robustesse ?

L'acquisition d'une appliance de déduplication nécessite, au préalable, une remise à plat des politiques de sauvegarde et de réplication. Mais compte tenu de la jeunesse de l'offre, il convient de s'interroger sur la richesse fonctionnelle, mais aussi sur la fiabilité, la robustesse et la performance en écriture ou en restitution des solutions commerciales.

Fiabilité, d'abord, car le mécanisme d'identification des blocs redondants, qui s'appuie sur des algorithmes de calcul d'empreinte, peut connaître des collisions, impliquant une faible probabilité de corruption de données. Les fournisseurs doivent donc proposer des mécanismes de vérification additionnels. Robustesse, ensuite, car selon le rôle que joue la base d'indexation de la solution de déduplication – simple mécanisme de gestion des pointeurs ou table de routage des accès aux données –, cette base constituera un point de faiblesse unique du système de back up. Performance, enfin, puisque le débit en écriture dépend du stade (avant sauvegarde, au fil de l'eau ou en tâche d'arrière-fond une fois les données récupérées) auquel intervient la déduplication. Pour toutes ces raisons, la déduplication ne devrait atteindre la maturité que d'ici deux à cinq ans. Dixit Gartner Group.

La déduplication temporelle dans son principe

Lors de la sauvegarde initiale (S1), les données sont segmentées. Le moteur de déduplication crée un index des segments identifiés par une empreinte, puis expédie chaque segment vers l'espace de stockage. Lors des sauvegardes suivantes, les données sont segmentées. Pour chaque segment, le moteur de déduplication vérifie si son empreinte se trouve déjà dans l'index (colonne S2 du tableau). Si tel est le cas, un pointeur dans l'index renvoie au segment déjà stocké lors de la sauvegarde initiale. Sinon, le moteur de déduplication crée un nouvel identifiant dans l'index et stocke la donnée correspondante.

publicité
à lire aussi
SUR LES MÊMES THÈMES
Le Cigref refond son référentiel des métiers du SI
La fibre optique peu accessible aux PME
Comment lutter contre le paradoxe des TIC
Voyage au cœur d'un futur centre de données
Le secteur IT progresse, mais peut mieux faire
01Informatique
01 INFORMATIQUE
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
MICRO HEBDO
L'hebdo qui vous simplifie la micro
et Internet.
L'Ordinateur Individuel
L'ORDINATEUR INDIVIDUEL
Le mensuel informatique qui vous informe et vous conseille.
Tous droits réservés © 1999 - 2009 Internext - 01net.