logiciels pilotes / drivers mobiles et PDA jeux logos et sonneries cartes virtuelles bandes annonces

Abonnez-vous aux flux RSS
Comptes & Budgets
Étudiez votre situation financière pour prendre les bonnes décisions.
nouveau
Toutes les vidéos de 01net. : reportages, tests, interviews...
FORUMS
NEWSLETTERS
CHAT
MON ESPACE PRODUIT
EMPLOI ET FORMATIONS
TELECHARGEMENT PILOTES
         01net    Web
La déduplication des données Vincent Berdot [ SAUVEGARDE SUR DISQUE ]
La déduplication des données
En factorisant les séquences de bits identiques, les techniques de segmentation du stockage restreignent la consommation d'espace disque.

Vincent Berdot , 01 Informatique (n° 1873), le 16/11/2006 à 07h00

Le stockage de fichiers « dédupliqués » requiert jusqu'à 50 fois moins d'espace que les procédés habituels. Son principe : les fichiers sont découpés en une multitude de tronçons, auxquels est associé un identifiant unique. La comparaison de ces identifiants permet de ne stocker qu'une seule fois un même tronçon. Tous les acteurs de la sauvegarde se positionnent sur cette technologie : Diligent, Avamar, Data Domain, Sepaton pour les éditeurs de niche ; et Veritas, EMC, HP, HDS, Quantum-Adic, Overland, et Falconstor pour les plus grands noms.

Tout repose sur un algorithme

Le principal enjeu est de trouver le meilleur équilibre entre la factorisation des séquences (la plus élevée possible) et la taille (la plus réduite possible) de l'index des signatures. Plus les tronçons sont petits, plus la factorisation - et donc l'économie d'espace de stockage - est importante. Inversement, les signatures générées sont plus nombreuses, et alourdissent l'index. Aussi, pour des questions de performance, celui-ci doit être stocké dans le cache du serveur de déduplication, et non sur disque. Et cette mémoire cache s'avère limitée et coûteuse.

Sur le papier, l'Israélien Diligent affiche, à ce jour, les meilleures performances. Avec 4 Go de cache, il adresse 1 Po (1 petaoctet, soit 1 000 téraoctets) de données, à un débit moyen de 200 Mo/s (selon le contenu des fichiers). Son secret : c'est l'un des rares à miser sur un algorithme de hachage propriétaire, et non sur SHA-1 ou MD5 pour signer les tronçons. Il optimise ainsi la taille des segments en fonction des séquences de bits identifiées.

Des économies sur l'espace de stockage
Cliquez ici pour agrandir l'image

1. Un processus centralisé ou éclaté

Certains serveurs de déduplication (Diligent et Data Domain, par exemple) s'insèrent dans le flux des données de sauvegarde. Souvent en émulant une bandothèque virtuelle. D'autres systèmes (Avamar, notamment) sont plus décentralisés : les processus de déduplication sont répartis sur les serveurs de production au moyen d'agents. Les données sont ensuite envoyées à un serveur de déduplication, qui, dans cette architecture, se substitue au serveur de sauvegarde.

2. Une segmentation déterministe ou aléatoire

Le fichier envoyé par le serveur de sauvegarde est découpé par l'algorithme de déduplication en plusieurs blocs. A chaque portion est associée une signature unique, sous la forme de « hash ». Selon les technologies, le découpage est soit déterministe (un segment de 8 Ko, par exemple), soit aléatoire (sa taille diffère selon les séquences de bits identifiées par l'algorithme). Tous ces « hashs » sont ensuite comparés à ceux déjà stockés dans l'index. Lorsqu'un « hash » est présent, c'est que le segment de données qui lui est associé est déjà stocké. Si aucune correspondance n'est trouvée, la séquence est stockée, et l'index mis à jour.

3. De l'index aux adresses physiques

L'index envoie au référentiel la description du fichier à stocker sous forme d'une combinaison de signatures. Le référentiel traduit alors ces signatures en pointeurs vers les adresses physiques des séquences de données. Lorsque le serveur de sauvegarde restaure des données, il s'adresse directement à ce référentiel. En cas de perte du serveur de duplication et de son index, cette restauration est donc toujours possible.



écrire à l'auteur imprimer
envoyer par mail
Cet article est extrait de : 01 Informatique

Hebdomadaire stratégique d'actualité, son objectif est d'informer et d'aider les décideurs dans leurs choix de produits et de solutions technologiques.

Découvrez le magazine
Contactez la rédaction
Abonnez vous
Devis et Factures
Réalisez facilement en quelques minutes des devis et factures professionnels et analysez votre activité.
Finances
Obtenez une vue globale de votre situation financièe pour prendre les bonnes décisions.

Question d'argent





logiciel
Flypaper, la création de sites Flash à la mode Powerpoint

logiciel
EMC présente un outil de gestion de contenu entreprise orienté Web 2.0

télécoms
Comment sont fabriqués les câbles optiques sous-marins ?

La logithèque pro windows   > mac   > linux

Pour retrouver toute l'actualité des collectivités locales
Cliquez ici

L'actualité des .com, des .fr,
des .biz... chroniquée par
Jean-François Poussard (MailClub)
Cette semaine :
Attention aux vraies fausses extensions nationales !

LOGICIELS LIBRES
Vous cherchez une
solution open source ?
Retrouvez notre guide des logiciels libres
SUJETS CHAUDS

Pour retrouver tout le test des hébergeurs
Cliquez ici

moyenne du 29 08 au 04 09 2008
rang opérateurs appels aboutis qualité vocale stabilité vocale qualité globale  
1 IC Telecom - Centrex 100.0 89.1 100.0 96.72 En hausse
2 Ornis - Centrex 100.0 88.8 96.7 95.98 En baisse
3 Neuf Cegetel 100.0 89.9 90.0 94.96 En baisse
  Moyenne 100.0 86.4 86.7 93.25  
01net.com, en partenariat avec , mesure chaque semaine les performances des opérateurs ToIP


A ne pas manquer !


Abonnez-vous gratuitement !
Quotidienne
Hebdomadaire
 
découvrez 01men.com
> toutes nos newsletters

FLUX RSS

Google Chrome : du pain bénit pour les développeurs


Les salaires de l'informatique offshore


Salaires : les informaticiens qui ont la meilleure cote


La candidature papier a encore la cote auprès des recruteurs


YouTube pour entreprises, par Google


> tout le classement  




KIOSQUE
01 Informatique
01Informatique
L'hebdo de référence des décideurs informatiques.
Micro Hebdo
Micro Hebdo
L'hebdo qui vous simplifie la micro et Internet.
L'Ordinateur Individuel
L'Ordinateur Individuel
Le mensuel informatique qui vous informe et vous conseille.

Les flux RSS de 01net.


Tous les PodCasts
audio et video
Tous droits réservés © 1999 - 2008 Internext - 01net.
Sites du réseau 01net Network : 01net. - 01men - RMC - BFM - BFM TV - La Tribune - Micro Achat - TousLesPodcasts