Data reduction : qu’est-ce que la réduction de données ?
Le terme de « data reduction » désigne les méthodes qui permettent de réduire la quantité de données à stocker physiquement. Cette méthode permet d’économiser de l’espace de stockage et de réduire les coûts.
Qu’est-ce que la réduction de données ?
Les méthodes de data reduction regroupent différents procédés d’optimisation de la capacité. Celles-ci ont pour objectif de réduire la quantité de données à stocker. Le nombre de données ne cessant d’augmenter dans le monde entier, une telle réduction est nécessaire pour garantir un stockage des données efficace en termes de ressources et de coûts.
On distingue différentes approches de data reduction : la compression des données et la déduplication. Alors que la compression sans perte utilise des redondances au sein d’un fichier pour comprimer les données, les algorithmes de déduplication, eux, égalisent les données entre les fichiers afin d’éviter les répétitions.
Data reduction : la déduplication
La technique de déduplication désigne un processus de réduction de données permettant d’éviter la redondance de données sur l’espace de stockage d’un système. Une machine de déduplication est utilisée pour éliminer les fichiers ou blocs de données redondants grâce à des algorithmes spéciaux. Le domaine d’application central de la déduplication est la sauvegarde des données.
Le but de la déduplication comme technique de stockage est d’écrire autant d’informations que nécessaire sur un support non volatil, afin de reconstituer un fichier sans perte. Plus il y a de duplicatas enlevés, plus la quantité de données devant être stockée et transmise est réduite.
L’identification de duplicatas peut par exemple se faire sur Git ou Dropbox au niveau du fichier, mais les algorithmes qui travaillent au niveau des sous-fichiers restent plus efficaces. Les fichiers sont ainsi démontés en blocs de données (chunks) qui sont dotés de sommes de contrôle uniques, également appelés valeurs de hachage. Une base de données de suivi sert d’instance de contrôle centrale et contient toutes ces sommes de contrôle.
La méthode de déduplication basée sur la construction de blocs comporte deux variantes :
- Déduplication avec de longs blocs solides : l’algorithme subdivise les fichiers en extraits de longueur identique, généralement orientée vers la taille du groupe de fichiers (cluster) ou système RAID (4 KB habituellement), mais il peut aussi être configuré manuellement.
- Déduplication avec des blocs à longueur variable : l’algorithme répartit les données en différents blocs, chacun ayant une longueur variable en fonction du type de données à traiter.
Le type de répartition a une influence de plus en plus importante sur l’efficacité de la déduplication, surtout lors de modifications ultérieures des données dédupliquées. Par exemple, si l’on élargit un bloc de données solide en y ajoutant des informations supplémentaires, l’algorithme de déduplication considère tous les blocs suivants comme nouveaux en raison du déplacement des limites des blocs. Cette situation entraîne une augmentation de la charge de calcul et de l’utilisation de la bande passante.
Si, en revanche, un algorithme utilise des limites de blocs variables, les modifications apportées à un seul bloc ne se répercutent pas sur les segments adjacents. Au lieu de cela, seul le bloc de données modifié est étendu par les nouveaux octets et enregistré. Cette approche allège la charge du réseau, car moins de données sont transmises lors d’une sauvegarde. Toutefois, cette flexibilité dans les modifications de données entraîne des coûts en termes de ressources processeur, car l’algorithme doit d’abord déterminer comment les chunks sont répartis.
- Sauvegarde automatique et restauration facile
- Gestion et planification intuitives
- Protection contre les menaces basée sur l'IA
Data reduction : la compression de données
Avec la compression de données, les fichiers sont transférés en une représentation alternative qui est plus efficace que l’initiale. Le but de cet encodage est de réduire non seulement la mémoire dont on a besoin, mais aussi le temps de transfert. On différencie deux approches de gain de codage :
- Compression axée sur la redondance : lors d’une compression sans perte pour réduire une redondance de données, ces dernières peuvent être décompressées au bit près après une compression. Les données entrantes et sortantes sont donc identiques. Une telle compression n’est possible qu’à condition qu’une donnée contienne des informations redondantes.
- Compression axée sur la non-pertinence : lors d’une compression avec perte, des informations insignifiantes sont enlevées afin de compresser un fichier. Ceci implique dans tous les cas une perte de données. Les données d’origine ne se restaurent qu’approximativement après une compression non pertinente. Les données considérées comme non pertinentes le sont de façon subjective. Lors d’une compression audio via MP3, les modèles de fréquences considérés comme imperceptibles par des humains sont par exemple retirés.
Tandis que la compression s’effectue sans perte au niveau des systèmes de stockage, les pertes de données sont délibérément acceptées dans d’autres domaines dans d’autres domaines tels que l’image, la vidéo, ou la transmission audio afin d’obtenir une réduction de la taille des fichiers.
La compression nécessite autant de calcul que la décompression de fichiers. Mais cette quantité de calcul dépend de la méthode de compression utilisée. Tandis que quelques techniques sont conçues pour une représentation aussi compacte que possible des données sortantes, d’autres visent à réduire le temps de calcul nécessaire. Le choix de la méthode de compression s’oriente toujours en fonction des exigences du domaine d’application en question.
Data reduction : comparaison des différentes possibilités pour la réduction des données
Pour réaliser des procédures de sauvegarde ou optimiser le stockage standard de systèmes de données, les entreprises recourent généralement à la déduplication. Cela s’explique notamment par l’extrême efficacité des systèmes de déduplication lorsque des données identiques doivent être classées. Les processus de compression de données sont au contraire liés à un volume de calcul plus élevé et nécessitent des plateformes plus onéreuses. Le plus efficace est d’utiliser une combinaison des deux procédés de réduction de données sur un système de stockage. Les redondances sont ainsi éliminées des fichiers stockés par déduplication et les données restantes sont ensuite compressées,