Cyber-résilience

Quels nouveaux critères à intégrer dans sa politique de sauvegarde ?

Dans un article précédent, nous avions identifié que les politiques traditionnelles de sauvegarde basées sur des stratégies de rétention longue en sauvegarde locale versus les durées de rétentions plus courte en sauveagarde externalisée (Cloud) devenaient de moins en moins pertinentes.

Dans cet article nous allons analyser les potentiels besoins et les impacts de changement de la logique traditionnelle : passage à une rétention courte en local et longue à distance (Cloud)

Comprendre les technologies de déduplication

Si les technologies de déduplication ont été rapidement intégrées dans des solutions de sauvegarde haut de gamme via des appliances spécialisées (notamment dans des contextes de solutions de déduplication à la cible), elles n’étaient que moyennement performantes sur les solutions logicielles de sauvegarde traditionnelle (utilisant de la déduplication à la source ce qui induit une consommation réseau et sur le serveur d’origine).

Ainsi sur des technologies très matures de déduplication à la cible (de type Dell Data Domain ou Avamar ou HPE StoreOnce ), les taux de déduplication peuvent attendre 90 à 95 %. Mais les contraintes de ces appliances sont nombreuses :

évolutivité et coût des appliances en termes d’espace de stockage
besoin pour réhydrater les anciennes données sauvegardées (par exemple pour des durées de rétention de 5 ou 10 ans), il est nécessaire de leur faire suivre les évolutions de technologie (bref migrer les sauvegardes sur les nouvelles appliances) : coûteux et fastidieux.
obsolescence matérielle et logicielle

Sur les solutions de sauvegarde purement logicielles, les taux de déduplication sont beaucoup plus faibles (entre 30 et 70%), et dépendant de nombreux paramètres :

Les types de fichier
Les méthodes de sauvegardes
Les algorithmes utilisés

En synthèse, les solutions de déduplication les plus performantes ont longtemps été déployées sur des appliances de sauvegarde locale (permettant de la déduplication à la cible, beaucoup plus performante mais qui induit des contraintes liées à tout dispositif hardware : gestion de la capacité, obsolescence).

Les solutions actuelles de sauvegardes logicielles permettant de sauvegarder dans le Cloud disposent de moteur de déduplication beaucoup moins performants car s’appuyant sur des principes de déduplication à la source.

L’évolution des sauvegardes incrémentielles perpétuelles

La stratégie de sauvegarde incrémentielle (Forever Incremental Backup) permanente supprime le concept de full et les inconvénients sur les fenêtres de sauvegarde le WE sur les sauvegarde complètes (qui existent même en utilisant des sauvegarde de type full synthetic) mais génère de nouveaux risques :

comment être sur que la restauration fonctionnera sachant qu’il n’y a plus jamais de sauvegarde compète réalisée : comment vérifier l’intégrité de la sauvegarde
comment garantir une durée de restauration stable : que la restauration ne soit pas obligée d’aller lire des parties de données depuis de trop nombreux blocs de données ce qui ralentit énormément la durée de restauration
comment réorganiser tous les blocs sauvegardées à intervalle régulier sans impacter les serveurs de l’infrastructure d’origine

Les différentes solutions de sauvegarde ont des réponses différentes pour couvrir ces risques mais rappelez vous que la méthode qui génère le plus de confiance est la solution de redémarrer le serveur avec ses données et de vérifier que tout fonctionne bien.

Nouveaux moteurs de sauvegarde intégrant de la déduplication à la source et à la cible : le meilleur des deux mondes ?

De nouveaux moteurs de sauvegarde sont apparus assez récemment dans les environnements Linux. Pourquoi Linux, essentiellement car il existent de gros organismes de recherche qui génèrent des pétaoctets de données scientifiques qu’il faut sauvegarder (avec des taux de croissance de données extrêmement importants).

Dans ce contexte avec de gros serveurs Linux (de quelques To à quelques dizaines ou centaines de To), les solutions de sauvegarde traditionnelles généraient :

des durées de sauvegarde trop importantes
une consommation d’espace de stockage gigantesque
interruptions ou erreurs qui imposent de recommencer si le logiciel ne gère pas les reprises dans tous les contextes
et in fine, l’incapacité à restaurer ces volumes de données dans des délais raisonnables (ainsi pour restaurer des serveurs de 10 To, avec des solutions de sauvegarde traditionnelles, cela pouvait prendre 3/4/5 jours et régulièrement ne pas aller au bout).

Donc de nouveaux moteurs de sauvegarde intégrant les concepts décrits ci-avant comme :

les sauvegardes incrémentielles perpétuelles qui évitent d’effectuer régulièrement des sauvegardes complètes (full)
- très intéressantes car elles ne nécessitent plus de réaliser des sauvegardes complètes qui consomment
- mais pour avoir un haut niveau de confiance nécessitent en complément des mécanismes au niveau de la cible du stockage des sauvegardes des vérifications régulières de la cohérence des
de nouvelles méthodes de déduplication basé sur du Content Defined Chunking qui sont des évolutions importantes de l’efficacité des algorithmes de déduplication
- ces mécanismes de Content Defined Chunking (CDC) que l’on traduira par hachage roulant offrent un taux élevé de déduplication.
des possibilités dans un contexte de RGPD, de supprimer dans l’historique de sauvegarde, l’ensemble des données d’un dossier, client, ..
…