Stratégies et guide de sauvegarde et de reprise après sinistre Hadoop HDFS

Bienvenue > Blog sur la sauvegarde et la restauration > Stratégies et guide de sauvegarde et de reprise après sinistre Hadoop HDFS

Mis à jour 5th janvier 2024, Rob Morrison

Contents

Définition d’Hadoop
HBase
Hadoop et la sécurité des données
Les fausses idées sur Hadoop en matière de protection des données
Qu’attend-on d’une solution moderne de protection des données Hadoop ?
Outils et mesures de sauvegarde Hadoop intégrés
Méthodologie pour déterminer la meilleure solution de sauvegarde Hadoop HDFS
Solutions de sauvegarde Hadoop tierces
Les sauvegardes HDFS Hadoop et Bacula Enterprise
Conclusion

Définition d’Hadoop

Hadoop a été créé à l’origine pour travailler avec des ensembles de données massives, ce que l’on appelle communément les « big data ». Il s’agit d’un cadre logiciel à code source ouvert capable à la fois de stocker et de traiter des volumes de données massifs. Conçu dans un souci d’évolutivité, Hadoop offre une haute disponibilité, une tolérance aux pannes et la capacité de gérer des pétaoctets de données.

Hadoop se compose de quatre éléments principaux :

Yet Another Resource Negotiator, ou YARN. Il s’agit d’un cadre de gestion des ressources qui supervise l’allocation des ressources de calcul (CPU, mémoire et stockage) aux applications exécutées sur le cluster Hadoop. Il simplifie l’allocation et la planification des ressources, ce qui rend la gestion et la mise à l’échelle des applications Hadoop plus faciles à gérer.
MapReduce. Il s’agit d’un modèle de programmation qui facilite le traitement de grands ensembles de données sur des clusters distribués. Les données en question sont traitées simultanément par plusieurs nœuds de cluster après avoir été séparées en petits morceaux. Les résultats du traitement sont ensuite combinés pour générer la sortie finale.
ZooKeeper. Il s’agit d’un service de coordination distribué qui fournit un registre centralisé pour le nommage, la configuration et la synchronisation entre les nœuds du cluster Hadoop. L’objectif principal de ZooKeeper est de s’assurer que l’état du système est cohérent à tout moment en surveillant chaque nœud du cluster.
Hadoop Distributed File System, ou HDFS. Comme son nom l’indique, il s’agit d’un système de fichiers conçu spécifiquement pour travailler avec de grands volumes de données séparés en grappes et en nœuds. Il partitionne les données entre plusieurs nœuds et réplique les blocs de données pour assurer la tolérance aux pannes.

L’évolutivité et la flexibilité de Hadoop en font un choix incontournable pour les organisations qui traitent des quantités massives de données. Sa capacité à stocker, traiter et analyser efficacement de grands ensembles de données en a fait la pierre angulaire de l’infrastructure de données moderne. Hadoop a de nombreux cas d’utilisation potentiels, y compris, mais sans s’y limiter :

Faciliter la création d’entrepôts de données pour le stockage et l’analyse de volumes de données massifs dans une structure spécifique.
Offrir une capacité inestimable à recevoir des informations, des tendances et des modèles à partir de l’analyse de ces volumes de données.
Générer des lacs de données – des dépôts pour des quantités massives de données non traitées.
Favoriser l’entraînement et le déploiement de modèles d’apprentissage automatique sur de grands ensembles de données.
La collecte, l’analyse et le stockage de grands volumes de journaux provenant de sites web, d’applications et de serveurs.

HBase

Hadoop est un cadre intéressant, mais son objectif principal reste le stockage de données à des fins spécifiques. La plupart des utilisateurs ont recours à HBase afin d’interagir avec toutes ces données de manière pertinente. Apache HBase est un type de base de données distribuée avec une base NoSQL qui a été créée pour travailler avec des ensembles de données massives – tout comme Hadoop. HBase est un logiciel libre qui s’intègre à Apache Hadoop et à l’ensemble de son écosystème. Il peut fonctionner avec EMRFS (la variante de MapReduce d’Amazon S3) et HDFS (le système de fichiers propre à Hadoop).

HBase utilise Apache Phoenix pour permettre l’application de requêtes de type SQL aux tables HBase tout en traitant toutes les commandes en provenance et à destination du cadre MapReduce. Il est évolutif, rapide et tolérant à de nombreuses défaillances grâce à sa structure qui copie assez largement l’approche de Hadoop – les données étant réparties sur plusieurs hôtes dans un cluster, de sorte qu’aucune défaillance d’un seul hôte ne puisse entraîner l’effondrement du système tout entier.

L’introduction à HBase est importante dans ce contexte car Hadoop et HBase sont souvent utilisés en tandem pour de nombreux cas d’utilisation et types de différents projets.

En même temps, les méthodes de sauvegarde et de restauration de HBase sont différentes de celles utilisées par Hadoop – c’est un point que nous aborderons plus tard.

Hadoop et la sécurité des données

Hadoop a connu une phase de popularité assez spontanée ces dernières années, notamment dans le contexte de l’introduction de l’IA et du ML sous la forme de chatbots et de LLM (Large Language Model) tels que ChatGPT qui sont enseignés à l’aide de pools de données massifs.

En même temps, le sujet de la sécurité Hadoop dans son ensemble a été plutôt problématique pendant un certain temps maintenant. Plusieurs raisons expliquent ce problème, notamment la taille moyenne des données (qui compte surtout des pétaoctets et des exaoctets), l’évolutivité globale de la solution (qui rend pratiquement impossible la mise en œuvre d’une solution qui fonctionnerait pour toutes les formes et tailles de données), ainsi que la fonction de réplication des données incluse.

La réplication des données est l’alternative originale d’Hadoop aux sauvegardes de données – elle crée 3 copies de chaque bloc de données par défaut, ce qui fait penser à certains utilisateurs qu’il n’est pas nécessaire d’avoir une solution de sauvegarde en premier lieu. Cette approche ne tient généralement pas compte du fait que les capacités d’Hadoop ne fonctionnent que pour les pools de données non structurées traditionnels dans les entrepôts et autres.

Ainsi, lorsqu’il s’agit de modèles ML, de données IoT, de données de médias sociaux et d’autres types de données qui diffèrent des lacs de données habituels pour lesquels Hadoop est connu – il peut offrir peu de protection pour ces données, créant un problème de sécurité massif pour ses utilisateurs.

Il y a aussi le problème de l’accessibilité – les données répliquées par Hadoop ne sont pas stockées séparément de l’original, ce qui les rend tout aussi vulnérables aux problèmes et aux violations de données que l’ensemble de données d’origine. Il existe donc une demande pour des mesures de sauvegarde Hadoop – à la fois intégrées et tierces.

Cependant, avant d’aborder les sauvegardes Hadoop en particulier, il est important de parler un peu plus d’Hadoop dans le contexte de la protection des données.

Les fausses idées sur Hadoop en matière de protection des données

L’adoption généralisée d’Hadoop au sein des entreprises a conduit à la prolifération de mécanismes de sauvegarde et de restauration Hadoop basiques, mis en œuvre à la hâte. Ces solutions rudimentaires, souvent fournies avec les distributions Hadoop ou assemblées par les équipes de développement internes, peuvent sembler fonctionnelles à première vue, mais elles présentent des risques importants pour l’intégrité des données et la résilience de l’organisation, en particulier lorsque les systèmes gagnent en taille et en complexité.

Tout temps d’arrêt ou toute perte de données résultant de l’échec de la récupération en cas de sinistre peut avoir de graves répercussions sur les entreprises, en ternissant leur réputation, en augmentant les coûts et en entravant les efforts de mise sur le marché. La plupart des inconvénients d’une telle approche peuvent être expliqués en examinant certaines des plus grandes fausses idées qu’Hadoop a en termes de protection des données.

Image fausse #1 – L’utilisation d’instantanés HDFS est une stratégie de protection des données viables

Le système de fichiers distribués Hadoop utilise des instantanés pour générer des copies ponctuelles de fichiers uniques ou de répertoires entiers. Cette approche de la protection des données présente de nombreuses limites :

La récupération de données à partir d’instantanés HDFS est un processus fastidieux, qui nécessite la localisation manuelle des fichiers, la reconstruction des schémas et la récupération des fichiers de données.
Les instantanés HDFS fonctionnent au niveau du fichier, ce qui les rend inefficaces pour les bases de données telles que Hive et HBase, car les définitions de schéma associées ne sont pas capturées dans les sauvegardes.
Bien qu’il soit possible d’effectuer et de stocker plusieurs instantanés du système, chaque instantané augmente les besoins globaux du cluster en termes de stockage, ce qui peut s’avérer être un problème majeur à terme.
Comme les instantanés résident sur les mêmes nœuds que les données qu’ils protègent, une panne de nœud ou de disque peut entraîner la perte des instantanés et des données protégées.

Fausses idées #2 – Les distributions commerciales Hadoop offrent des capacités de sauvegarde suffisantes

Les distributions commerciales Hadoop comprennent souvent des outils de sauvegarde intégrés. Ces outils, bien qu’offrant un niveau de base de fonctionnalité de sauvegarde, peuvent ne pas s’aligner sur les RPO et RTO rigoureux d’une organisation. Essentiellement, ces outils agissent comme une interface utilisateur pour les instantanés HDFS, héritant de toutes les limitations associées aux instantanés HDFS discutées précédemment. En outre, ces outils ne disposent généralement pas de mécanismes de récupération conviviaux, ce qui fait de la récupération des données un processus manuel et sujet aux erreurs.

Fausses idées #3 – Les répliques du système de fichiers sont une mesure de protection des données suffisante pour Hadoop

Si les répliques protègent efficacement les données contre les défaillances matérielles, telles que les pannes de nœuds ou les dysfonctionnements des lecteurs de disques, elles ne protègent pas suffisamment contre les scénarios plus courants impliquant la corruption des données. Les erreurs des utilisateurs, telles que la suppression accidentelle d’une table dans Hive, et les bogues d’application peuvent entraîner une corruption des données, rendant les répliques inefficaces pour restaurer l’intégrité des données.

Mauvaise idée #4 – Les scripts personnalisés pour Hadoop sont adaptés aux tâches de sauvegarde et de restauration à long terme

Les équipes de développement internes de nombreuses organisations ont souvent recours au développement de scripts personnalisés pour sauvegarder leurs bases de données Hive et HBase, ainsi que les fichiers HDFS. Cette approche implique généralement de consacrer plusieurs mois-hommes à l’écriture et aux tests des scripts afin de garantir leur fonctionnalité dans tous les scénarios.

Malheureusement, cette approche dans son ensemble est extrêmement difficile à maintenir, car les scripts personnalisés doivent être mis à jour et révisés régulièrement, que ce soit en raison des mises à jour d’Hadoop ou d’une autre raison. Tout comme les instantanés, les scripts se concentrent principalement sur la réplication des données et manquent de mécanismes de récupération automatisés. Par conséquent, la récupération des données reste un processus manuel et sujet aux erreurs.

En outre, l’absence de tests réguliers peut entraîner une perte de données, en particulier lorsque l’équipe responsable du développement des scripts n’est plus disponible.

Qu’attend-on d’une solution moderne de protection des données Hadoop ?

Les stratégies de récupération des données sont une chose à laquelle tout environnement basé sur Hadoop devrait penser tôt ou tard. Une stratégie complète et bien définie de sauvegarde et de récupération des données Hadoop est essentielle pour garantir une récupération fiable et rapide des données tout en minimisant la charge sur les ressources d’ingénierie et de développement.

Une solution moderne de protection des données Hadoop doit être capable de trouver un équilibre entre des scripts personnalisés complexes et des capacités de sauvegarde des données sophistiquées. Elle doit fonctionner de manière autonome, en éliminant le besoin de ressources dédiées et en ne nécessitant qu’un minimum d’expertise Hadoop. En outre, elle doit être exceptionnellement fiable et évolutive pour gérer efficacement des pétaoctets de données, tout en répondant à des exigences de conformité internes strictes en matière d’objectifs de points et de délais de récupération.

En outre, la solution en question doit offrir une protection complète contre les ransomwares, garantissant l’intégrité des données face aux attaques malveillantes. L’intégration du stockage en nuage est une autre caractéristique cruciale, qui permet d’optimiser les coûts et d’assurer un stockage flexible des données. La solution doit également préserver plusieurs copies ponctuelles des données pour une récupération granulaire, garantissant la disponibilité des données historiques en cas de besoin.

En outre, un logiciel moderne de sauvegarde et de restauration Hadoop doit donner la priorité à l’efficacité de la restauration, en utilisant une connaissance intelligente des données pour dédupliquer les formats de big data et rationaliser les processus de restauration. En tirant parti des technologies avancées et de l’automatisation, une telle solution peut sauvegarder les actifs de données critiques et minimiser l’impact de la perte ou de la corruption des données.

Outils et mesures de sauvegarde Hadoop intégrés

Comme nous l’avons mentionné précédemment, Hadoop n’offre aucun moyen d’effectuer une sauvegarde « traditionnelle » des données, pour un certain nombre de raisons. L’une des principales raisons est la quantité considérable de données avec lesquelles Hadoop fonctionne habituellement – des pétaoctets et des exaoctets d’informations non structurées dans une structure très inhabituelle.

Heureusement, cela ne veut pas dire que Hadoop est complètement sans défense. Sa propre structure de données avec la réplication 3x par défaut le rend relativement sûr contre les petites parties du cluster hors service – puisque les données elles-mêmes sont stockées à plusieurs endroits en même temps.

La réplication des données mentionnée ci-dessus est l’une des principales raisons pour lesquelles tous les utilisateurs d’Hadoop ne se soucient pas des mesures de sauvegarde en premier lieu – tout en oubliant complètement que la réplication seule ne peut pas protéger contre la perte de cluster ou d’autres problèmes à grande échelle tels que les catastrophes naturelles.

DistCp

En parlant de réplication de données, il existe également un outil de réplication de données manuel que beaucoup d’utilisateurs Hadoop utilisent – DistCp, ou Distributed Copy. Il s’agit d’un outil CLI relativement simple qui permet de répliquer les données d’un cluster à un autre, créant ainsi une sorte de « sauvegarde » qui constitue une garantie supplémentaire contre la perte potentielle de données.

DistCp peut être utilisé pour effectuer une copie de cluster à l’aide d’une commande relativement simple :

bash$ hadoop distcp2 hdfs://fns1:8020/path/loc hdfs://fns2:8020/loc/parth

La commande en question localise le nœud de noms fns1 avec l’espace de noms sous /path/loc et l’étend dans un fichier temporaire. Le contenu du répertoire est ensuite réparti entre un ensemble de tâches de mappage avant que le processus de copie ne commence – en utilisant le cluster fns2 et l’emplacement /loc/path comme destination finale.

Il convient de noter qu’il existe deux versions de DistCp couramment utilisées : la version originale/légitime et la « deuxième » version appelée DistCp2. Il existe deux grandes différences entre ces versions d’outils :

La version legacy de DistCp n’était pas capable de créer des répertoires racines vides dans le dossier cible, mais DistCp2 peut le faire sans problème.
L’ancienne version de DistCp ne mettait pas à jour les attributs des fichiers qui étaient ignorés pendant le processus de copie – ce n’est pas le cas avec DistCp2, puisqu’il mettrait à jour toutes les valeurs telles que les autorisations et les informations sur le groupe propriétaire même si le fichier en question n’était pas copié.

HDFS Instantanés

L’alternative à la réplication des données pour Hadoop en ce qui concerne les mesures intégrées est l’instantané. Les instantanés HDFS sont des copies ponctuelles de données en lecture seule qui sont rapides et efficaces, mais qui ne sont pas sans inconvénients.

La création d’un instantané est instantanée et n’affecte pas les opérations régulières de HDFS, puisque l’ordre chronologique inverse est utilisé pour enregistrer les modifications de données. Les instantanés eux-mêmes ne nécessitent de la mémoire supplémentaire que lorsque des modifications sont apportées par rapport à un instantané. En outre, la fonction d’instantané ne copie pas les blocs dans les nœuds de données – les seules données enregistrées sont la taille du fichier et la liste des blocs.

Il existe quelques commandes de base associées à la création d’un instantané HDFS, notamment :

Création d’un instantané HDFS

hdfs dfs -createSnapshot hdfs://fns1:8020/path/loc

Cette commande spécifique prend également en charge l’attribution facultative d’un nom personnalisé à l’instantané en question – un nom standardisé sera utilisé pour l’instantané en question si le nom personnalisé n’a pas été détecté.

Suppression d’un instantané HDFS

hdfs dfs -deleteSnapshot hdfs://fns1:8020/path/loc snapshot2023

Contrairement à la commande précédente, le nom de l’instantané est un argument non facultatif dans ce cas.

Permettre la création d’un instantané pour un répertoire

hdfs dfs -allowSnapshot hdfs://fns1:8020/path/loc

Interdire la création d’un Snapshot pour un répertoire

hdfs dfs -disallowSnapshot hdfs://fns1:8020/path/loc

Bien sûr, il existe d’autres approches qui peuvent être utilisées pour sauvegarder les données Hadoop d’une manière ou d’une autre, comme le double chargement – l’approche de gestion des données qui charge toutes les informations sur deux clusters différents en même temps. Toutefois, ces approches sont souvent extrêmement nuancées et nécessitent des connaissances approfondies en la matière (ainsi que de nombreuses ressources) pour être exécutées correctement.

Il convient également de noter que les opérations de sauvegarde et de restauration de HBase ne sont pas identiques aux mesures de sauvegarde Hadoop mentionnées dans cet article – même si HBase fonctionne au-dessus de HDFS (qui fait partie de Hadoop). Les opérations de sauvegarde et de restauration HBase sont complètement différentes des mesures de sauvegarde et de restauration Hadoop, avec des commandes CLI différentes, une approche différente de la création de sauvegarde, et plus encore.

Méthodologie pour déterminer la meilleure solution de sauvegarde Hadoop HDFS

Les fournisseurs de solutions de sauvegarde tierces peuvent offrir beaucoup en termes de sauvegarde de données Hadoop. Il existe de nombreuses solutions de sauvegarde différentes qui offrent un support de sauvegarde HDFS d’une manière ou d’une autre – mais le choix d’une solution peut être assez délicat. Heureusement, nous pouvons vous proposer plusieurs facteurs différents que nous avons choisis pour présenter chaque solution en comparaison avec le reste d’entre elles.

Les évaluations des clients

Customer ratings exist to act as a representative of the average opinion about the subject matter – a backup solution, in our case. We have used sites such as Capterra, TrustRadius, and G2 to receive this kind of information.

Capterra est une plateforme d’agrégation d’avis qui procède à des vérifications approfondies auprès de tous ses clients afin de garantir l’authenticité des avis. Les vendeurs ne peuvent en aucun cas supprimer les avis de leurs clients. Capterra compte aujourd’hui plus de 2 millions d’avis, avec près d’un millier de catégories différentes.

TrustRadius est une plateforme d’évaluation qui utilise des processus étendus en plusieurs étapes pour s’assurer que chaque évaluation est authentique et réelle, et il existe également une équipe de recherche interne distincte pour examiner les évaluations afin qu’elles soient détaillées et approfondies. La plateforme n’autorise aucune forme de falsification des avis des utilisateurs de la part des vendeurs.

G2 est une plateforme d’évaluation remarquable qui compte plus de 2,4 millions d’évaluations à ce jour. Elle dispose d’une bibliothèque de plus de 100 000 vendeurs et de son propre système de validation des avis pour s’assurer que chaque avis est réel et authentique. G2 propose également un certain nombre d’autres services, notamment en matière de suivi, d’investissement, de marketing, etc.

Caractéristiques clés et avantages/inconvénients

Il s’agit d’une catégorie assez complexe, qui comprend à la fois les caractéristiques et les avantages/inconvénients de la solution. Dans un sens, elles sont relativement similaires, certaines des caractéristiques clés les plus importantes d’une sauvegarde Hadoop HDFS moyenne étant :

Extensive scalability due to the sheer amount of data Hadoop deployments are dealing with.
Haute performance des opérations de sauvegarde/restauration pour garantir des sauvegardes et des restaurations rapides, le cas échéant.
Flexibilité en termes de types de données pouvant être sauvegardées, qu’il s’agisse d’espaces de noms, de déploiements, de pods, d’applications, etc.
La cohérence des instantanés doit toujours être présente dans une solution Hadoop pour garantir un risque minimal de perte de données et des opérations de récupération plus faciles par la suite.
Les analyses détaillées sont recommandées, elles peuvent grandement simplifier la tâche globale de gestion des sauvegardes en fournissant des informations utiles et d’autres types de données.

Prix

Le prix est l’un des facteurs les plus importants d’une solution de sauvegarde – ou de tout autre type de produit ou de service. Lorsqu’il s’agit de solutions de sauvegarde spécifiquement (en particulier les solutions de sauvegarde Hadoop HDFS) – le prix peut facilement être le facteur décisif pour une variété d’entreprises. Le résultat dépend beaucoup des besoins actuels du client, ainsi que de nombreux autres facteurs internes. Il est fortement recommandé de toujours comparer le prix de la solution avec son ensemble de fonctionnalités afin de garantir le meilleur rapport qualité-prix pour votre entreprise.

Une opinion personnelle de l’auteur

Une partie totalement subjective de la méthodologie – l’opinion de l’auteur sur le sujet (sauvegardes Hadoop HDFS). Cette catégorie peut inclure pratiquement n’importe quoi, de l’opinion personnelle de l’auteur sur le sujet en question à certaines informations qu’il n’aurait peut-être pas été approprié de mentionner dans d’autres parties de la méthodologie.

Solutions de sauvegarde Hadoop tierces

Il existe de multiples options de sauvegarde tierces possibles pour l’utilisateur Hadoop, y compris des solutions de sauvegarde populaires et moins connues.

Commvault

Commvault tente de changer complètement le domaine actuel de la gestion des données en ne nécessitant aucune forme d’administration sur site afin de contrôler l’ensemble du système de protection des données. Il fonctionne comme une plate-forme centralisée avec des sauvegardes physiques et virtuelles, offrant la possibilité de gérer tous les aspects du système à partir d’un seul endroit. Toutes les fonctionnalités de Commvault sont regroupées dans une interface accessible et conviviale, sans aucune complexité inutile.

La prise en charge des sauvegardes de données Hadoop est l’une des nombreuses possibilités offertes par Commvault. Les fonctionnalités de sauvegarde et de restauration HDFS et HBase sont incluses dans le package global – avec trois types de sauvegarde différents (incrémentielle, complète, complète synthétique), des capacités de planification de la sauvegarde, une restauration granulaire des données, des cibles de restauration multiples, et ainsi de suite.

Évaluations des clients :

Capterra – 4.8/5 points avec 11 évaluations de clients
TrustRadius – 8.0/10 points avec 217 évaluations de clients
G2 – 4.2/5 points avec 112 expertises clients

Avantages :

Commvault donne la priorité à la commodité d’utilisation, en veillant à ce que les tâches de configuration de routine soient faciles à exécuter. Cette approche intuitive minimise les besoins en formation et maximise la productivité, ce qui favorise une expérience utilisateur harmonieuse.
L’évolutivité de Commvault va au-delà de la croissance verticale ; elle s’étend horizontalement de manière transparente pour répondre à des demandes en constante évolution en tirant parti de diverses intégrations et en prenant en charge une large gamme de types de stockage.
L’évolutivité de Commvault est assez bonne ; elle s’adapte bien à certaines infrastructures informatiques complexes et avancées, offrant une protection complète des données pour les organisations de toutes tailles. Il peut fonctionner avec certains cadres de big data tels que Hadoop.

Points faibles :

Les rapports détaillés semblent être un défi assez commun pour de nombreuses solutions de sauvegarde de données d’entreprise – y compris Commvault. Malgré des intégrations spécifiques offrant des rapports améliorés, les lacunes en matière de rapports sont évidentes dans l’ensemble.
Alors que Commvault se targue d’une prise en charge étendue des conteneurs, des hyperviseurs et des bases de données, il est crucial de reconnaître que la compatibilité universelle reste insaisissable. Une évaluation complète des systèmes pris en charge est conseillée avant l’adoption.
Les considérations de coût sont particulièrement pertinentes pour les petites et moyennes entreprises, car les prix de Commvault dépassent souvent les moyennes du marché, ce qui risque de grever les budgets. Une évaluation réfléchie des implications financières est essentielle avant d’investir dans Commvault.

Prix (au moment de la rédaction) :

Aucune information officielle sur les prix n’est disponible sur le site Web de Commvault.
Toutefois, il y a aussi les informations non officielles qui offrent le prix de 3,400$ à 8,781$ par mois pour une seule appliance matérielle.

Mon opinion personnelle sur Commvault :

La polyvalence de Commvault brille par sa prise en charge d’une gamme variée de solutions de stockage, couvrant les environnements physiques et en nuage. Que vos données résident dans une infrastructure traditionnelle sur site ou dans les étendues élastiques du cloud, Commvault en assure la protection et l’accessibilité. Sa polyvalence est impressionnante, avec la possibilité de créer des sauvegardes HDFS de multiples façons, ce qui en fait un excellent candidat pour cette liste de solutions de sauvegarde et de restauration Hadoop.

NetApp

La présence mondiale de NetApp, avec plus de 150 bureaux dans le monde, garantit un support local facilement accessible, offrant une assistance rapide à tout moment et en tout lieu. Ce vaste réseau de centres de support souligne l’engagement de NetApp à satisfaire ses clients. Une interface centralisée constitue le centre névralgique des prouesses de NetApp en matière de protection des données, en fournissant une plate-forme unifiée pour la surveillance, la planification et la journalisation de vos opérations de sauvegarde et de restauration.

La polyvalence de NetApp se traduit par la prise en charge d’un large éventail de types de données, notamment les applications, les bases de données, les serveurs MS Exchange, les machines virtuelles et même les cadres de gestion de données tels que Hadoop. NetApp travaille avec le DistCp susmentionné pour recevoir les données sauvegardées, car NetApp utilise MapReduce pour définir son propre partage NFS comme emplacement cible de sauvegarde pour DistCp, agissant de la même manière qu’un pilote NFS.

Évaluations des clients :

Capterra – 4.5/5 points avec 8 évaluations
TrustRadius – 9.2/10 points avec 2 évaluations
G2 – 3.8/5 points avec 2 évaluations

Avantages :

Une grande partie du processus de clonage est automatisée, ce qui le rend remarquablement convivial avec un minimum de paramètres complexes ou de menus à parcourir – et on peut en dire autant du reste de la solution.
Les capacités de sauvegarde à distance de la solution sont particulièrement remarquables, permettant potentiellement une stratégie de protection des données sans faille.
La prise en charge des tâches de sauvegarde et de restauration HDFS est réalisée grâce à l’intégration avec DistCp – en configurant un Network File System de NetApp comme destination pour une tâche de sauvegarde DistCp.

Points faibles :

Malgré ses atouts, la solution peut être entachée d’un nombre notable de bogues qui peuvent nuire à ses performances globales.
La solution ne dispose pas de fonctionnalités de restauration à distance pour les serveurs Linux, ce qui constitue un inconvénient important pour certains utilisateurs.
En outre, le support client est quelque peu limité, ce qui oblige les utilisateurs à s’appuyer davantage sur les ressources en libre-service.

Prix (au moment de la rédaction) :

Les solutions NetApp ont tendance à varier considérablement en termes de prix et de capacités.
Pour obtenir des informations sur les prix, les clients potentiels doivent contacter NetApp directement pour lancer un essai gratuit ou une démonstration.
Des sources non officielles suggèrent que les frais d’abonnement annuels de NetApp SnapCenter commencent à 1 410 $.

Mon opinion personnelle sur NetApp :

NetApp propose une gestion centralisée des sauvegardes, une multitude d’options de planification, des fonctions de sauvegarde étendues et la possibilité de travailler avec de nombreux types de stockage. Les sauvegardes générées par la solution sont facilement accessibles à partir de pratiquement n’importe quel appareil équipé d’un navigateur web, y compris les ordinateurs portables et les téléphones mobiles. NetApp se distingue de ses concurrents en proposant un réseau mondial de bureaux, ce qui contribuera probablement à offrir un support localisé aux entreprises dans des régions spécifiques. Il est important de reconnaître qu’aucune solution unique n’a été choisie pour décrire les capacités de sauvegarde Hadoop de NetApp, car cette fonctionnalité particulière utilise un certain nombre de technologies NetApp qui ne sont pas toutes liées à une solution unique.

Veritas NetBackup

Véritable pilier dans le domaine de la protection des données, Veritas est une entité vénérable avec un riche héritage dans le secteur de la sauvegarde et de la restauration. Veritas propose des solutions de gouvernance de l’information, de gestion des données multi-cloud, de sauvegarde et de restauration, etc. En outre, son modèle de déploiement flexible permet aux clients d’adapter leurs stratégies de protection des données à leurs besoins spécifiques. Veritas peut offrir le choix entre une appliance matérielle pour une intégration transparente ou un logiciel déployable sur le propre matériel du client pour un maximum de flexibilité et de contrôle.

Veritas NetBackup peut également offrir des opérations de sauvegarde Hadoop grâce à son plugin sans agent qui peut offrir une multitude de fonctionnalités. Ce plugin offre des sauvegardes complètes et incrémentielles, ce qui permet de créer des copies de données ponctuelles à tout moment. Il y a très peu de limitations lorsqu’il s’agit de restaurer ces données – un administrateur peut choisir l’emplacement de la restauration, et le plugin prend également en charge la restauration granulaire si nécessaire.

Évaluations des clients :

Capterra – 4.1/5 points avec 8 évaluations
TrustRadius – 6.3/10 points avec 159 évaluations
G2 – 4.1/5 points avec 234 évaluations

Avantages :

Le nombre global de fonctionnalités que Veritas peut offrir est élevé par rapport à d’autres fournisseurs sur le marché de la sauvegarde et de la restauration.
Les utilisateurs saluent l’interface conviviale de la solution, qui présente efficacement son ensemble complet de fonctionnalités sans entraver l’accessibilité.
Le service d’assistance à la clientèle de Veritas est raisonnablement bon en termes d’efficacité et de réactivité.
La polyvalence globale de la solution est un autre argument digne d’éloges, le logiciel étant capable de fonctionner avec tous les types d’environnement, y compris Hadoop (via un plugin distinct pour NetBackup).

Points faibles :

Même s’il s’agit d’une solution de classe entreprise, Veritas présente des lacunes dans certains domaines en ce qui concerne les capacités d’automatisation.
En outre, son prix peut être considéré comme élevé par rapport à certains de ses concurrents.
Il n’y a aucun moyen d’enregistrer les rapports de sauvegarde dans un emplacement personnalisé, et la capacité globale de création de rapports de Veritas est plutôt rigide.
L’intégration des fonctions de bibliothèque de bandes est entravée par des problèmes non résolus.

Prix (au moment de la rédaction) :

Veritas omet intentionnellement de fournir des informations spécifiques sur les prix sur son site Web officiel, optant plutôt pour une approche personnalisée.
Les clients potentiels doivent s’engager directement avec Veritas pour obtenir des détails sur les prix qui correspondent à leurs exigences spécifiques et à leurs besoins de déploiement.
Cette stratégie individualisée permet à Veritas d’élaborer soigneusement ses offres, en veillant à ce qu’elles soient parfaitement adaptées aux circonstances et aux préférences uniques de chaque client.

Mon opinion personnelle sur Veritas :

Veritas est une entreprise vénérable et fiable dans le domaine de la gestion des données et des solutions de sauvegarde. Avec une expérience de plusieurs décennies, Veritas a été largement reconnu comme un fournisseur de sauvegarde privilégié, en particulier dans les secteurs qui accordent une grande importance à la richesse de l’histoire d’une entreprise et à la diversité de son portefeuille. Réputé pour ses performances, Veritas offre un large éventail de solutions et de fonctionnalités de sauvegarde, complétées par une interface utilisateur qui s’adresse à un large éventail d’utilisateurs. Il peut même prendre en charge des structures complexes telles que Hadoop, y compris la prise en charge de SSL et de l’authentification Kerberos.

Dell PowerProtect DD

PowerProtect DD est une solution complète de protection et de stockage des données, englobant des fonctions de sauvegarde, de reprise après sinistre et de déduplication des données. Sa conception modulaire s’adresse aux organisations de toutes tailles, ce qui en fait une solution adaptée à une grande variété de cas d’utilisation. Il existe des appliances pour tous les types d’entreprises, depuis les entreprises de base jusqu’aux grandes entreprises, offrant jusqu’à 150 pétaoctets de capacité logique et un débit d’environ 68 téraoctets par heure.

PowerProtect DD s’intègre parfaitement aux environnements Hadoop grâce à un pilote dédié, DDHCFS, offrant une protection complète des données et une foule d’autres avantages. La solution elle-même ne nécessite que peu ou pas de configuration préalable, et elle utilise une combinaison de sa propre technologie (DD Boost, pour un transfert de données plus rapide) et les capacités de réplication de données/snapshotting de Hadoop afin de créer et de transférer des sauvegardes à stocker dans l’appliance PowerProtect DD.

Évaluations des clients :

TrustRadius – 8.0/10 points avec 44 évaluations de clients

Avantages :

Certains clients louent la fiabilité de l’appareil qui peut fonctionner 24 heures sur 24 et 7 jours sur 7 et être accessible à tout moment.
Le processus de première installation semble relativement simple.
De nombreux frameworks et types de stockage différents sont pris en charge – certains ont même des pilotes dédiés, comme Hadoop, ce qui permet de choisir parmi de nombreuses fonctionnalités et de les configurer sans effort.

Points faibles :

La plupart des offres semblent assez chères par rapport au prix moyen du marché.
La vitesse de restauration des données à partir d’un appareil réel semble relativement lente. Cela pourrait devenir insoutenable pour les grands ensembles de données.
Si la solution de gestion du matériel fonctionne dans des limites acceptables, sa structure semble quelque peu simpliste.

Tarification :

Il n’y a pas d’informations officielles sur les prix de la plupart des produits Dell EMC sur le site Web officiel, et les appliances PowerProtect DD ne font pas exception.

Mon opinion personnelle sur Dell :

PowerProtect DD est légèrement différent du reste des options tierces, principalement parce qu’il s’agit d’une pièce physique de matériel au lieu d’un logiciel ou d’une plateforme virtuelle. Il s’agit d’une solution complète de protection et de stockage des données qui comprend des fonctions de sauvegarde, de reprise après sinistre et de déduplication des données. Elle peut être utilisée aussi bien par les grandes entreprises que par les petites, si nécessaire. Elle dispose même d’un pilote dédié aux tâches de reprise après sinistre Hadoop appelé DDHCFS – DD Hadoop Compatible File System, offrant une protection complète des données ainsi que de nombreux autres avantages.

Cloudera

Cloudera est une société américaine de logiciels spécialisée dans la gestion et l’analyse des données d’entreprise. Sa plateforme phare est la seule plateforme « cloud-native » spécifiquement conçue pour fonctionner de manière transparente chez tous les principaux fournisseurs de clouds publics et dans les environnements de clouds privés sur site. La plateforme Cloudera est conçue pour les entreprises qui cherchent des moyens différents de gérer leurs énormes pools de données, de générer des informations et de prendre des décisions éclairées par la suite.

Cette plateforme de gestion n’est en aucun cas axée sur la sauvegarde et la récupération, pas plus qu’elle n’offre une solution de sauvegarde traditionnelle. Cependant, Hadoop est le cadre central de Cloudera dans son ensemble, c’est pourquoi il peut offrir certaines capacités de reprise après sinistre HDFS en fournissant les moyens de répliquer les données d’un cluster à l’autre. Les capacités de sauvegarde de Cloudera ne sont pas particulièrement complètes en elles-mêmes, mais elles offrent un certain nombre de fonctionnalités utiles en plus des capacités de base de type DistCp – telles que la planification, la vérification des données, etc. Il s’agit d’un processus assez complexe en soi, mais Cloudera propose un guide étape par étape sur ce sujet précis, ce qui facilite grandement son exécution.

Évaluations des clients :

G2 – 4.0/5 points avec 38 évaluations de clients

Avantages :

Le support client est rapide et efficace, offrant des connaissances approfondies sur les capacités de la solution.
Une communauté importante autour de la solution permet de trouver plus facilement des réponses à diverses questions en ligne, y compris certaines des capacités les moins conventionnelles du logiciel.
La solution est extrêmement évolutive, ce qui la rend applicable aux petites entreprises, aux grandes entreprises et à tout ce qui se trouve entre les deux.

Points faibles :

Le coût global de la solution est assez élevé, et l’offre la moins chère possible est encore considérée comme assez chère pour la plupart des petites entreprises.
La documentation de la solution est plutôt terne, laissant de nombreux sujets et fonctions inexpliqués pour l’utilisateur moyen.
L’interface utilisateur de la solution ne reçoit pas beaucoup d’éloges, de nombreux utilisateurs la considèrent comme rigide et peu réactive.

Prix :

Aucune information officielle sur les prix n’est disponible sur le site de Cloudera.
Les informations de contact et le formulaire de demande de démo sont les seules choses qui peuvent être obtenues publiquement.

Mon opinion personnelle sur Cloudera :

Techniquement parlant, Cloudera n’est pas une solution de sauvegarde en soi – il s’agit d’une plateforme de gestion de données d’entreprise. Cependant, la plateforme en question utilise Hadoop comme cadre principal, et il y a des capacités de rétention de données qui sont incluses dans le package – même si elles copient principalement les capacités de DistCp. Heureusement, Cloudera peut créer des calendriers de réplication des données, et même des calendriers de restauration des données pour des événements potentiellement problématiques liés aux données dans le futur. Néanmoins, en soi, il manque de nombreuses fonctionnalités qui rendraient de véritables opérations de sauvegarde et de récupération limitées au mieux, ce qui entraînerait des difficultés potentielles en matière de continuité des activités, de conformité et de fonctionnement efficace dans certaines organisations.

Les sauvegardes HDFS Hadoop et Bacula Enterprise

Bacula Enterprise est une solution de sauvegarde hautement sécurisée et évolutive qui offre ses capacités flexibles via un système de modules. Il existe un module de sauvegarde HDFS séparé qui offre une sauvegarde et une restauration efficaces du cluster HDFS avec plusieurs types de sauvegarde (incrémentielle, différentielle, complète) et une gestion automatique des instantanés.

Le module est capable de filtrer les données en fonction de leur date de création, ce qui le rend extrêmement pratique pour l’utilisateur final. De nombreuses autres fonctionnalités de sauvegarde sont également présentes, ainsi qu’une liberté presque totale quant au choix du répertoire de restauration pour les sauvegardes HDFS.

Le fonctionnement de ce module est également simple – une opération de sauvegarde déclenche une connexion entre un FS Hadoop et un module Hadoop afin de générer un instantané du système avant de l’envoyer au File Daemon de Bacula. La sauvegarde complète n’a pas besoin d’accéder aux instantanés précédents, tandis que les sauvegardes différentielles et incrémentielles doivent le faire pour prendre note des différences entre les derniers instantanés et les instantanés actuels.

Il y a aussi le fait que Bacula Enterprise est distribué en utilisant un modèle de licence d’abonnement avantageux sans limites de volume de données. C’est un avantage considérable dans le contexte d’Hadoop, car la plupart des déploiements Hadoop sont des pools de données massifs, et la sauvegarde de ce type de déploiements fait grimper le prix assez fortement dans d’autres solutions – mais pas avec Bacula.

De nombreuses autres fonctionnalités de Bacula destinées aux entreprises sont également applicables aux données Hadoop sauvegardées. Bacula Enterprise est une solution exceptionnelle et polyvalente qui convient à de nombreux cas d’utilisation, y compris le HPC qui utilise fréquemment HDFS,

L’architecture complète de Bacula est modulaire et personnalisable, ce qui permet à la solution de s’adapter facilement à différents environnements informatiques, quelle que soit leur taille. La prise en charge d’infrastructures distribuées avec équilibrage de charge via plusieurs serveurs Bacula Director permet d’éviter les surcharges pendant les périodes de forte charge. D’une manière générale, Bacula a l’habitude de travailler avec des stockages de données volumineux sans aucun problème – une qualité exceptionnellement utile qui contribue à son efficacité dans les déploiements Hadoop. Bacula est également capable de faire partie d’une stratégie complète de reprise après sinistre. Ce ne sont là que quelques-unes des raisons pour lesquelles il est utilisé par les plus grandes organisations militaires et de défense du monde, les banques, la NASA et les laboratoires nationaux américains.

Conclusion

Hadoop est un cadre important, en particulier avec tant d’entreprises qui s’appuient sur de grands pools de données pour effectuer des tâches de ML et d’IA, parmi beaucoup d’autres. Le « big data » est de plus en plus utilisé et les applications qui s’y rapportent ont mûri pour devenir des solutions commerciales sophistiquées et à forte valeur ajoutée. De même, la demande de frameworks qui le complètent se développe au même rythme.

Toutefois, l’apparition de nouvelles structures de données et de nouveaux cadres s’accompagne de nouveaux problèmes, car les protocoles et mesures de sécurité des données existants ne sont pas toujours compatibles avec les systèmes Hadoop. Heureusement, Hadoop dispose de ses propres capacités de réplication des données et d’instantané, et il existe également de nombreuses solutions et plateformes de sauvegarde tierces qui peuvent offrir des capacités de sauvegarde Hadoop.

Des solutions telles que Bacula ou Veritas conviendraient parfaitement aux entreprises à la recherche d’une solution « tout-en-un » capable de couvrir les déploiements Hadoop tout en protégeant un large éventail de types de données et d’applications au sein de la même infrastructure, afin d’obtenir une protection à vitre unique. Cloudera ou même certaines des méthodes intégrées peuvent convenir à certaines organisations ayant des besoins simples en matière de sauvegarde et de restauration, car elles offrent une solution quelque peu ciblée à un problème étroit, mais avec des capacités très limitées en dehors de la couverture de HDFS et de HBase.

Les données HDFS et HBase peuvent être protégées dans une certaine mesure avec différentes méthodes et approches au sein de solutions de gestion telles que Cloudera. Mais si la sauvegarde et la récupération sont nécessaires à un niveau de sophistication quelconque, des solutions spécialisées telles que Bacula seront nécessaires pour fournir le niveau de service requis.

À propos de l’auteur

Rob Morrison est le directeur marketing de Bacula Systems. Il a commencé sa carrière dans le marketing informatique chez Silicon Graphics en Suisse, où il a obtenu de bons résultats dans divers rôles de gestion du marketing pendant près de 10 ans. Au cours des 10 années suivantes, Rob a également occupé divers postes de gestion du marketing chez JBoss, Red Hat et Pentaho, assurant la croissance des parts de marché de ces sociétés bien connues. Il est diplômé de l'université de Plymouth, titulaire d'un diplôme spécialisé en médias et communications numériques, et a suivi un programme d'études à l'étranger.

Vous pouvez également être intéressé par :

solution de sauvegarde

solution de sauvegarde serveur

système de sauvegarde