Bienvenue > Blog sur la sauvegarde et la restauration > Stratégie de sauvegarde et de restauration Ceph

Stratégie de sauvegarde et de restauration Ceph

1 Star2 Stars3 Stars4 Stars5 Stars
(12 votes, moyenne : 4,90 de 5)
Loading...
Mis à jour 11th juin 2024, Rob Morrison

Qu’est-ce que Ceph ?

Ceph est une plateforme de stockage définie par logiciel, distribuée gratuitement et en code source libre. Elle fournit un stockage de fichiers, de blocs et d’objets en utilisant sa fondation de cluster distribué comme infrastructure. Ceph n’a pas besoin de s’appuyer sur un système de fichiers tiers car son propre backend de stockage, appelé « BlueStore », est capable de gérer directement les disques SSD et les disques durs.

Même si le prototype original de Ceph a été créé en 2005 (en tant que projet d’été, rien de moins !), il n’était pas aussi populaire pendant la plupart de ses années de développement qu’il ne l’est aujourd’hui, malgré son ensemble impressionnant de fonctionnalités. Ceph ne nécessite pas de matériel spécifique pour fonctionner et peut répliquer des données avec une tolérance aux pannes, offrant ainsi une grande disponibilité des données grâce à une combinaison d’instantanés, de réplication, d’erasure coding, de clonage et d’autres capacités.

Parmi les plus grands exemples d’infrastructures Ceph dans le monde moderne, on peut citer un énorme fournisseur de cloud, DigitalOcean, une société française de cloud computing, OVH, et le CERN – une organisation de recherche intergouvernementale célèbre pour son laboratoire de physique des particules, qui est considéré comme le plus grand de la planète.

Pourquoi faut-il sauvegarder les clusters Ceph

L’un des avantages les plus significatifs de l’infrastructure Ceph est sa nature autogestionnaire et auto-réparatrice qui, lorsqu’elle est configurée correctement, peut réduire considérablement les coûts de gestion globaux pour les petits et les grands déploiements.

Certains utilisateurs pourraient penser que ce type de redondance est suffisant pour cesser d’utiliser les méthodes traditionnelles de sécurité des données, telles que les systèmes et opérations de sauvegarde et de récupération. Malheureusement, ce n’est pas le cas avec Ceph, et il existe plusieurs types de situations et de cas d’utilisation différents que sa redondance ne peut pas couvrir :

  • La reprise après sinistre est un exemple simple de ce que Ceph ne peut pas faire. La majorité des catastrophes affectent des clusters de stockage entiers, ce qui compromet l’ensemble de l’infrastructure et l’empêche d’être restaurée.
  • Les types de ransomware modernes ont évolué à plusieurs reprises, offrant la possibilité de rechercher et d’affecter des copies de sauvegarde et des systèmes de stockage entiers afin d’empêcher le cadre de redondance de Ceph de fonctionner dans son ensemble.
  • Ceph ne permet pas non plus d’éviter toutes les corruptions de données, car il n’est pas rare que la corruption se propage à travers des systèmes et des infrastructures entiers, affectant toutes les copies de redondance.
  • Les erreurs humaines sont peut-être l’une des catégories de problèmes les plus importantes que la plupart des mesures de sécurité ne sont pas en mesure de couvrir dans leur intégralité. La nature même du système de réplication de Ceph signifie que pratiquement toute modification des données d’origine est reproduite dans toutes les copies de redondance – y compris l’altération ou la suppression accidentelle d’informations importantes.

À ce titre, diverses mesures de sécurité, telles que les sauvegardes, restent nécessaires, même dans un environnement aussi riche en redondances que Ceph.

Comment les tâches de sauvegarde sont effectuées dans Ceph

Ceph utilise un composant de stockage en bloc appelé RBD (RADOS Block Device) pour exploiter à la fois les charges de travail et les informations dans les clusters Ceph. En raison de la nature très spécifique de l’infrastructure de Ceph, il existe au moins deux façons différentes de créer une sauvegarde ou une copie d’un cluster :

  • Attachement direct d’un disque virtuel à l’aide d’une VM proxy.
  • Exportation d’un volume RBD directement à partir de l’infrastructure Ceph.

Les deux approches ont leur lot d’inconvénients, en particulier lorsqu’il s’agit de créer des types de sauvegarde non standard (comme la sauvegarde incrémentielle).

Le principal problème ici est l’incapacité de Ceph à effectuer un suivi des blocs modifiés sans passer par l’ensemble du périphérique de bloc. Toutefois, Ceph propose sa propre solution pour résoudre ce problème : la possibilité d’extraire ce que l’on appelle la « différence d’instantané » qui est générée en créant un instantané manuel et un instantané automatique à des périodes différentes et en comparant les deux bloc par bloc.

Ce type d’approche peut être un peu plus problématique que les méthodes traditionnelles de sauvegarde incrémentielle, mais elle serait une nécessité pour les grands environnements qui ne peuvent pas se permettre d’utiliser uniquement des sauvegardes complètes pour des raisons de capacité de stockage des données.

En même temps, ces deux cas d’utilisation ne fonctionnent qu’avec un ensemble très spécifique de circonstances – y compris une couche de virtualisation et un logiciel qui supporte explicitement l’infrastructure Ceph. Heureusement, ce ne sont pas les seules méthodes de sauvegarde pour Ceph dans son ensemble.

Certaines solutions de sauvegarde sont capables de protéger les volumes RBD à un niveau très basique, de la même manière que d’autres applications ou VM sont protégées. Cette approche particulière fonctionne également pour les clusters Ceph, bien que la liste des logiciels capables de réaliser une telle prouesse soit encore étonnamment petite.

Logiciels de sauvegarde avec prise en charge de Ceph

Comme nous l’avons déjà mentionné, certaines solutions peuvent protéger les volumes RBD sans la couche de virtualisation, de la même manière que les apps ordinaires ou les VM sont protégées.

Storware

» width=

Storware est l’une de ces solutions, avec sa capacité vProtect Storage Provider offrant une protection des données basée sur des politiques pour pratiquement tous les types de volumes nécessaires. Elle peut prendre en charge les volumes Ceph, ainsi que plusieurs autres environnements Kubernetes/OpenStack. Storware prend en charge l’exportation directe de RBD et l’attachement direct au disque via un hyperviseur comme deux de ses principales approches des sauvegardes, laissant le choix à l’utilisateur.

Le logiciel dans son ensemble offre également de nombreux autres cas d’utilisation et capacités. Storware est une solution de sauvegarde centrée sur les VM avec une prise en charge de nombreux autres supports de stockage ; c’est une plateforme relativement conviviale qui excelle dans la gestion des instantanés et qui peut offrir une quantité raisonnable de personnalisation à ses utilisateurs.

Cotes des clients :

  • G24.7/5 note basée sur 28 examens de clients

Avantages :

  • Une interface utilisateur simple et pratique avec une expérience utilisateur agréable.
  • Le logiciel lui-même est sans agent, ce qui simplifie grandement le processus de déploiement global.
  • En ce qui concerne le processus de déploiement, la configuration de Storware pour la première fois n’est pas une tâche difficile pour la plupart des utilisateurs.

Points faibles :

  • Alors que le logiciel lui-même est très personnalisable, certaines de ses parties, comme le système de notification, sont étonnamment rigides à cet égard.
  • La configuration de Storware n’est pas un processus compliqué, mais tout le mérite en revient aux documents d’apprentissage de tiers sur Internet.
  • La configuration de la politique de rétention peut s’avérer fastidieuse pour de multiples raisons.

Tarification (au moment de la rédaction) :

  • Les informations sur les prix que Storware fournit sur son site Web public sont quelque peu limitées.
  • Il existe au moins deux plans tarifaires différents :
    • Freemium, qui est une version gratuite de la solution très limitée dans ses capacités – elle ne peut fonctionner qu’avec jusqu’à 1 To de données, jusqu’à 10 VM, jusqu’à 10 apps, etc. Le bon côté des choses, c’est qu’elle propose toutes les fonctionnalités de Storware.
    • Essai gratuit, une version chronométrée de la solution disponible pendant seulement 60 jours ; elle inclut tout ce que Storware a à offrir sans aucune limitation matérielle ou logicielle (hormis la limite de temps).
  • Tout ce qui concerne la tarification de la solution ne peut être obtenu qu’après avoir demandé un devis personnalisé.

Mon avis personnel sur Storware :

Storware est à l’origine une solution de sauvegarde et de restauration centrée sur les VM, avec de nombreuses capacités à cet égard, mais sa compatibilité Ceph est le point fort ici. Le logiciel peut extraire les différences d’instantanés directement à partir de l’API de Ceph pour de meilleures performances. Il offre également de nombreuses fonctionnalités de base orientées sauvegarde par défaut, notamment l’automatisation de la sauvegarde, la protection de la sauvegarde basée sur des politiques, différents types de sauvegarde, et plus encore. La possibilité de gérer les volumes RBD en dehors de la plateforme de virtualisation aide aussi considérablement Storware à gérer des infrastructures complexes composées de plusieurs types de stockage de données.

Trilio

» width=

Trilio est une bonne alternative au logiciel précédent. Il offre la possibilité d’extraire des instantanés RBD de l’infrastructure Ceph, de générer la « différence d’instantané » pour les sauvegardes incrémentielles et de convertir ces informations dans un format de fichier plus pratique et plus polyvalent qui peut être protégé avec d’autres fonctionnalités de Trilio. Il utilise sa propre TrilioVaultsolution pour offrir la continuité des activités et la protection des données dans un seul package.

Le principal public de Trilio est constitué des environnements cloud-native et de leurs utilisateurs, Kubernetes et OpenStack étant les éléments les plus précieux de ce groupe cible. Trilio peut non seulement offrir des fonctionnalités de sauvegarde et de récupération, mais aussi la résilience et la sécurité des données. Trilio peut effectuer une reprise après sinistre, aider à la conformité basée sur des preuves, et de multiples autres capacités.

Avantages :

  • Trilio peut fonctionner avec plusieurs API différentes qui peuvent simplifier le processus de création et de restauration des sauvegardes pour les applications de conteneurs et de cloud (Nova API et Cinder sont ses exemples les plus marquants).
  • Le logiciel peut réduire considérablement les efforts manuels nécessaires à l’exécution des tâches de sauvegarde et de restauration en offrant des fonctionnalités de sauvegarde basées sur des politiques et des fonctions d’automatisation personnalisables.
  • Il peut également capturer des applications et des conteneurs entiers en une seule fois, en veillant à ce que les dépendances et autres connexions ne soient pas perdues pendant ou après le processus de sauvegarde-récupération.

Points faibles :

  • L’accent mis par Trilio sur les environnements conteneurisés et cloud-native le rend quelque peu inutile pour les configurations d’environnement de stockage de données traditionnelles, ce qui peut limiter considérablement la portée potentielle et l’utilité globale de la solution.
  • Les technologies telles qu’OpenStack évoluent très fréquemment, ce qui oblige les logiciels tels que Trilio à s’adapter et à évoluer vers de nouveaux changements aussi rapidement que possible, ce qui ne convient pas à tous les utilisateurs.
  • Bien que Trilio offre un certain niveau de capacités de protection des données, la protection des environnements cloud-native dans leur ensemble peut être très difficile, ce qui explique pourquoi les capacités de Trilio ne sont pas particulièrement riches ou détaillées.

Tarification (au moment de la rédaction) :

  • Trilio n’offre pas d’informations officielles sur les prix sur son site web public. La seule façon d’obtenir de telles informations est de demander un devis personnalisé à la société.

Mon opinion personnelle sur Trilio :

Trilio est une solution plutôt utile avec un ensemble très spécifique de cas d’utilisation – à savoir, aider les environnements cloud-native et conteneurisés dans leurs efforts de protection des données. Trilio peut s’intégrer de manière transparente aux capacités de stockage distribué de Ceph, offrant une pléthore de fonctionnalités pour l’intégrité des données, un temps d’arrêt minimal, des performances maximales, etc. Le logiciel lui-même est relativement convivial et intuitif, ce qui le rend très facile à déployer et à utiliser, même pour les utilisateurs les moins expérimentés. Ceph n’est pas non plus le seul type d’infrastructure à pouvoir bénéficier de l’intégration de Trilio, puisque TrilioVault prend en charge tous les types d’environnement OpenStack.

Bacula Enterprise

» width=

Une autre solution potentielle pour sauvegarder spécifiquement les données des fournisseurs de stockage en nuage basées sur Ceph est Bacula, avec son Bacula Cloud Driver qui prend en charge la plupart des technologies dont Ceph et S3 sont constitués.

L’ajout du stockage en nuage à l’infrastructure permet à Bacula d’exécuter bon nombre de ses fonctionnalités orientées sauvegarde et restauration, avec une personnalisation impressionnante, des niveaux de sécurité élevés et un nombre massif de fonctionnalités avec lesquelles travailler. Les volumes Ceph eux-mêmes sont sauvegardés en utilisant une combinaison de capacités d’exportation RBD et BaculaLat‘s bpipe‘s feature, qui permet de créer des sauvegardes de volumes de données via des instantanés (il prend également en charge les types de sauvegardes différentielles et incrémentielles).

Cotes des clients :

  • TrustRadius9.8/10 points et 54 évaluations de clients
  • G24.7/5 points et 56 expertises clients

Avantages :

  • Une assistance clientèle exceptionnelle disponible 24 heures sur 24 et 7 jours sur 7.
  • Multiples intégrations disponibles et plateformes compatibles, y compris disque, bande, cloud, VM, applications, bases de données, conteneurs, etc.
  • Des performances impressionnantes pour les opérations de sauvegarde et de restauration.

Points faibles :

  • Un système de licence modulaire utilise un modèle de base basé sur l’abonnement avec un prix supplémentaire pour certains modules spécifiques, ce qui peut être insatisfaisant pour certains utilisateurs.
  • Le nombre total de fonctionnalités peut entraîner une courbe d’apprentissage modérée, même en utilisant l’interface graphique BWeb de Bacula au lieu d’une interface en ligne de commande.
  • Le cycle de mise à jour de Bacula est relativement court. De nombreuses mises à jour sont déployées régulièrement, et beaucoup d’entre elles sont obligatoires pour améliorer la sécurité et la stabilité du système.

Prix (au moment de la rédaction) :

  • Il n’y a pas d’informations officielles sur les prix de Bacula Enterprise sur le site officiel.
  • Toutefois, le modèle général de tarification y est expliqué, et il peut être un peu accablant au début :
    • BSBE (Bacula Small Business Edition) : 2 contrats, 20 agents, comprend BWeb et le support web.
    • Standard Tier : 2 contrats, 50 agents, pas plus de 4 jours d’attente pour les demandes de support client.
    • Tier Bronze : 2 contrats, 200 agents, délais de réponse au support client de 6 heures à 4 jours, support téléphonique.
    • Tier Argent : 3 contrats, 500 agents, des délais de réponse du support client de 4 heures à 2 jours, un plugin de déduplication.
    • Gold Tier: 5 contrats, 2000 agents, des délais de réponse au support client de 1 heure à 2 jours.
    • Platinum Tier : 5 contrats, 5000 agents, le temps d’attente le plus court possible pour le support client, le support du catalogue PostgreSQL, des cours d’administrateur gratuits (1 siège de formation).

Mon opinion personnelle sur Bacula Enterprise :

Bacula Enterprise est un logiciel de sauvegarde et de récupération passionnant, doté d’une myriade de capacités et de fonctionnalités différentes. Non seulement il peut fonctionner avec la majorité des types de stockage et des variantes d’infrastructure existants, mais il peut même fonctionner avec certaines infrastructures moins courantes, telles que Ceph et OpenStack. Il s’agit d’une solution polyvalente, particulièrement flexible et personnalisable, dotée d’un ensemble de fonctionnalités extraordinaires. Il existe même une version gratuite appelée Bacula Community, qui offre gratuitement un grand nombre de fonctionnalités, mais qui peut être un peu plus difficile à utiliser et à maîtriser. Le nombre même de fonctionnalités peut être un peu écrasant, mais l’ensemble est extrêmement compétent et vaut bien le temps et l’effort.

Backy2

» width=

Alternativement, il existe aussi des solutions de sauvegarde relativement petites avec un support explicite de Ceph. Backy2 est l’un de ces exemples, offrant un logiciel de sauvegarde open-source avec une infrastructure basée sur les blocs qui peut fonctionner avec pratiquement n’importe quel périphérique basé sur les blocs, y compris les volumes Ceph RBD. Il s’agit d’une solution de sauvegarde assez spécifique à chaque cas, mais puissante, avec compression, déduplication et chiffrement des données, ce qui la rend à la fois sûre et peu gourmande en espace.

Backy2 peut effectuer ses sauvegardes au niveau des blocs, ce qui réduit considérablement le temps par sauvegarde tout en diminuant les besoins en espace de stockage. Il peut être intégré à plusieurs infrastructures différentes et peut aider à la gestion des sauvegardes dans une certaine mesure en fournissant des capacités de vérification de l’intégrité des données, de planification des sauvegardes, etc. Malheureusement, il est aussi extrêmement spécifique à chaque cas, ce qui rend la recherche d’informations ou de retours d’expérience à son sujet très difficile.

cephbackup

» width=

D’autres projets de sauvegarde Ceph existent également, comme cet outil simple de GitHub qui peut effectuer des sauvegardes complètes et incrémentielles en utilisant le même processus que nous avons passé en revue à plusieurs reprises maintenant. Cependant, il convient de noter que cet outil particulier n’a pas été mis à jour depuis plus de sept ans, ce qui remet en question à la fois sa compatibilité et sa faisabilité globale.

Une approche recommandée de la sécurité des données Ceph

Le sujet des sauvegardes RBD à grande échelle prévaut depuis de multiples années maintenant sans qu’aucune solution simple n’y soit apportée. Cependant, de nombreuses idées ont pu être trouvées ces dernières années, comme ce panel de 2018 qui a été montré par un employé d’OVH – l’un des plus grands utilisateurs de l’environnement Ceph, et de loin.

Le panneau aborde quelques informations de base sur Ceph et ses capacités, ainsi que sur les sauvegardes évolutives qu’aucune solution de sauvegarde tierce ne pouvait offrir à l’époque (même leur solution de sauvegarde actuelle, Duplicity).

La personne qui a présenté le panel a également abordé tous les défis que l’évolutivité de la sauvegarde apporte dans le contexte de Ceph, tels que les limitations de la taille des fichiers et de la taille des images.

La solution à tous les problèmes engendrés par la configuration existante s’est avérée étonnamment simple. L’idée était d’utiliser les capacités de clonage de Ceph pour créer une copie identique du système à un moment donné, qui pourrait servir de première ligne de défense pour remplacer le cluster d’origine en cas de problème. Les performances propres à Ceph ont permis à cette méthode particulière d’être extrêmement rapide, plus rapide que n’importe quelle méthode de sauvegarde utilisée par OVH auparavant.

Mais ce n’est pas tout. Bien que les capacités de clonage de Ceph soient rapides, elles ne sont pas très puissantes en termes de sécurité et de mesures de protection. Ainsi, il était toujours recommandé d’utiliser des outils de sauvegarde tiers existants comme « deuxième ligne de défense », pour ainsi dire.

Cette approche combine la vitesse de clonage de Ceph avec la sécurité supplémentaire que les logiciels de sauvegarde tiers ajoutent – même si cela réduit considérablement les performances.

Conclusion

Ceph est un cadre de stockage impressionnant qui prend en charge une évolutivité extrême pour pratiquement n’importe quel volume de stockage dans un environnement distribué. Il utilise ses propres fonctions de redondance avancées pour offrir un niveau élevé de protection contre de nombreux problèmes différents liés aux données. Cependant, il est loin d’être parfait, c’est pourquoi les solutions de sauvegarde et de récupération sont toujours nécessaires aux côtés des clusters Ceph.

Bien qu’il existe plusieurs solutions différentes qui prennent en charge les clusters Ceph dans une certaine mesure, la plupart d’entre elles ont leur part d’inconvénients qui les rendent quelque peu incomplètes lorsqu’elles sont utilisées comme unique solution de sauvegarde. Cependant, la combinaison des capacités de réplication propres à Ceph avec des fonctionnalités de sauvegarde tierces offre un niveau de protection respectable avec plusieurs couches de sécurité, ce qui semble être à peu près le mieux que Ceph puisse offrir à l’heure actuelle.

Questions fréquemment posées

L’infrastructure d’autoréparation de Ceph est-elle une mesure de sécurité suffisante à elle seule ?

Si Ceph offre effectivement une infrastructure hautement redondante comme l’une de ses principales capacités, cela est loin d’être suffisant pour couvrir tous les vecteurs d’attaque possibles et toutes les variantes de catastrophes, du facteur humain aux menaces sophistiquées de type ransomware.

Quelle est l’approche principale de Ceph lorsqu’il s’agit d’opérations de sauvegarde internes et tierces ?

La plupart des capacités de sauvegarde et de réplication de Ceph sont effectuées en utilisant soit un montage direct sur disque via une VM proxy, soit une fonction d’exportation de volume RBD. Il existe également la possibilité de se connecter directement aux volumes RBD lorsqu’il n’y a pas de couche de virtualisation utilisée dans le processus de sauvegarde, ce dont certaines solutions de sauvegarde peuvent tirer parti.

À propos de l’auteur
Rob Morrison
Rob Morrison est le directeur marketing de Bacula Systems. Il a commencé sa carrière dans le marketing informatique chez Silicon Graphics en Suisse, où il a obtenu de bons résultats dans divers rôles de gestion du marketing pendant près de 10 ans. Au cours des 10 années suivantes, Rob a également occupé divers postes de gestion du marketing chez JBoss, Red Hat et Pentaho, assurant la croissance des parts de marché de ces sociétés bien connues. Il est diplômé de l'université de Plymouth, titulaire d'un diplôme spécialisé en médias et communications numériques, et a suivi un programme d'études à l'étranger.
Laissez un commentaire

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *