Bienvenue > Blog sur la sauvegarde et la restauration > Qu’est-ce que HPSS Storage ? La sauvegarde d’IBM HPSS

Qu’est-ce que HPSS Storage ? La sauvegarde d’IBM HPSS

1 Star2 Stars3 Stars4 Stars5 Stars
(12 votes, moyenne : 4,94 de 5)
Loading...
Mis à jour 30th janvier 2024, Rob Morrison

Qu’est-ce que HPSS ?

High-Performance Storage System (HPSS) est un logiciel de gestion du stockage hautement évolutif et flexible développé par la HPSS Collaboration afin de fournir un système de gestion du stockage hiérarchique (HSM) basé sur des politiques et défini par logiciel. Cette technologie est typiquement demandée dans de nombreux environnements informatiques de calcul à haute performance (HPC) et de supercalculateurs. L’une des raisons en est qu’un seul espace de noms HPSS peut gérer des milliards de fichiers, créer de quelques fichiers par seconde à des milliers par seconde et passer de pétaoctets à des exaoctets de données.

HPSS utilise une combinaison de technologies SAN, LAN et cluster pour combiner de nombreux supports de stockage différents dans une infrastructure unique (ordinateurs, disques, lecteurs de bandes ou bibliothèques de bandes).

HPSS prend en charge de nombreuses méthodes de création de données. Par exemple, il peut fonctionner avec FUSE, FTP, FTP parallèle et même avec l’API du client (E/S parallèle). L’API de HPSS est prise en charge par Solaris, Linux et AIX, et la prise en charge complète de Linux a été ajoutée à la version 7.5. L’ensemble de HPSS est créé à l’aide d’un SGBDR (système de gestion de base de données relationnelle) évolutif d’IBM appelé Db2.

Avantages de HPSS

Le stockage HPSS est très complexe sous le capot, la plupart de ses fonctionnalités ayant été créées pour fournir un stockage évolutif à long terme pour les besoins de l’entreprise. Parmi les avantages les plus significatifs d’IBM HPSS, citons :

  • Disponibilité. Étant donné que Db2 permet de garantir l’intégrité des métadonnées tout en offrant une récupération rapide en cas de panne, il n’est pas particulièrement difficile pour HPSS de fournir une combinaison de protection des données à long terme et de haute disponibilité des données. HPSS RAIT (Redundant Array of Independent Tapes) fournit des capacités de redondance des données bon marché, et l’exactitude des données est assurée par la protection des blocs logiques et la validation de la somme de contrôle des fichiers.
  • Efficacité. HPSS utilise une combinaison de techniques pour garantir des performances élevées et une efficacité impressionnante. La latence d’accès est réduite par l’organisation de l’ordre R/W, la vitesse de transfert des fichiers volumineux est améliorée par le transfert parallèle et la colocalisation, et la transparence pour les utilisateurs finaux est obtenue grâce à diverses capacités d’automatisation avec la gestion des politiques.
  • Support. HPSS est pris en charge et fourni par IBM avec un nombre impressionnant d’avantages – installation, configuration, résultats des tests, vérification des composants et architecture détaillée de la solution.
  • Énormément d’évolutivité. HPSS a une structure unique qui lui permet d’évoluer de manière incrémentale si nécessaire. L’ajout de ressources de stockage, de réseau et de calcul à l’espace de noms permet de stocker des exaoctets de données et des milliards de fichiers dans ce même espace de noms.

Innovations de HPSS

HPSS est un exemple exceptionnel de la façon dont un logiciel peut vivre pendant plus de dix ans avant d’être entièrement remplacé. Le forum des utilisateurs HPSS de 2022 a marqué le trentième anniversaire de ce logiciel, et il est toujours d’actualité. Voici quelques-unes des innovations les plus marquantes que HPSS a apportées au secteur :

  • Appels de procédure à distance. HPSS est largement considéré comme l’une des premières infrastructures à tirer parti de l’informatique distribuée en utilisant des appels de procédure à distance.
  • Gestion hiérarchique du stockage. La gestion hiérarchique du stockage étant un modèle de stockage à plusieurs niveaux, sa mise en œuvre dans un environnement pratique peut s’avérer extrêmement difficile. HPSS est officiellement le tout premier exemple d’une mise en œuvre HSM réussie sur le plan commercial.
  • Architecture basée sur le réseau. Il y a eu une période particulière dans les années 1990 où pratiquement toutes les unités HPC ont été transformées en utilisant un modèle de conception distribué comme base – rendant l’utilisation du réseau pour le transfert de données pratiquement obligatoire. HPSS a été l’une des premières implémentations réussies de la capacité de réseau distribué dans l’industrie.
  • Une séparation claire entre les commandes de trafic de contrôle et les commandes de données. HPSS a considérablement amélioré ses options d’évolutivité en séparant complètement deux groupes de fonctions différents – les commandes de données et les commandes de contrôle du trafic.
  • Transactions distribuées. L’idée d’une architecture distribuée a été initialement proposée par un petit nombre de solutions (y compris HPSS), et la mise en œuvre de transactions distribuées a été le principal catalyseur de cette suggestion.

Les origines de HPSS

Le HPSS a été initialement créé en 1992 et rendu possible par les recherches du National Storage Laboratory (NSL). L’objectif premier du NSL était de commercialiser des technologies matérielles et logicielles afin de surmonter divers goulets d’étranglement en ce qui concerne l’information numérique – tels que les goulets d’étranglement en matière de stockage de données et de calcul.

Le NSL est né d’une collaboration entre IBM et cinq laboratoires nationaux du ministère de l’énergie aux États-Unis :

  • Oak Ridge (ORNL);
  • Lawrence Livermore (LLNL);
  • Sandia (SNL);
  • Los Alamos (LANL);
  • Lawrence Berkeley (LBL);

Le groupe d’organismes de recherche susmentionné s’est rendu compte que l’explosion du stockage des données était sur le point de se produire, entraînant une augmentation considérable de plusieurs paramètres tels que le stockage des données, la vitesse de transfert des données et la puissance de calcul. Cette collaboration visait à créer et à déployer une infrastructure capable de s’adapter sans effort à tous les paramètres prévus et même au-delà. L’objectif était de créer un système capable de prendre en charge des gigaoctets de vitesse de transfert de données, des dizaines de téraoctets de débit de données et des pétaoctets, voire des exaoctets de données stockées.

Les premiers collaborateurs d’IBM HPSS ont bien compris qu’aucune organisation au monde ne disposait des ressources et de l’expérience nécessaires pour répondre simultanément à toutes les nouvelles exigences en matière de stockage et de transfert. Pendant toute l’existence de HPSS, plus de vingt entreprises et organisations différentes ont contribué au développement de ce projet, y compris des centres de supercalculateurs de la NSF, des laboratoires fédéraux américains, des universités, etc.

En 2022, l’équipe centrale de développement de HPSS se composait des six collaborateurs initiaux, à savoir IBM Global Business Services, LLNL, ORNL, LANL, SNL et LBNL. Le National Energy Research Scientific Computing Center (NERSC) est également considéré comme un contributeur important au développement de HPSS en tant que produit.

Les réalisations les plus marquantes du HPSS

Au cours de ses trente années d’existence, le système de stockage HPSS a réussi à changer et à évoluer, apportant de nouvelles réalisations et capacités à l’industrie. En voici quelques exemples :

  • Un test relativement peu connu qui impliquait la sauvegarde d’un milliard de fichiers a été réalisé pour la première fois avec succès en novembre 2007 par le San Diego Supercomputer Center – les données en question ont été copiées de GPFS (le propre système de fichiers en cluster d’IBM) vers HPSS.
  • Le National Center for Supercomputing Applications dans l’Illinois a lancé une infrastructure HPSS avec 380 Petabytes de stockage en mai 2013, une quantité de stockage véritablement énorme à l’époque.

Exemples notables d’utilisation de HPSS

HPSS est utilisé par des dizaines d’entreprises connues et populaires dans le monde entier, offrant un accès plus accessible et plus efficace à de grands pools de données. Dans la liste ci-dessous, nous présentons un certain nombre de projets qui utilisent HPSS pour le stockage de données à long terme :

  • The Dark Energy Spectroscopic Instrument – plus de 5 pétaoctets de résultats d’expériences et de données de simulation.
  • Le Joint Genome Institute – plus de 20 Pétaoctets d’informations, y compris des séquences cartographiées, des génomes assemblés, des séquences à qualité contrôlée, des séquences brutes, des transcriptomes, et plus encore.
  • The Advanced Light Source(Berkeley’s Lab) – plus de 4 Pétaoctets de données pendant dix ans, y compris toutes les informations de la ligne de faisceau de tomographie.
  • Le Groupe d’experts intergouvernemental sur l’évolution du climat – plus de 30 pétaoctets d’informations, y compris des simulations du système terrestre, des simulations climatiques et beaucoup d’autres données qui ont contribué à la Twentieth Century Reanalysis (un projet international dont l’objectif est de créer un ensemble de données sur la circulation atmosphérique pour l’ensemble du 20e siècle).
  • Le fond diffus cosmologique – au moins 5,5 pétaoctets de simulations et de données provenant de diverses expériences, notamment les expériences du pôle Sud, BICEP, Keck et 17 télescopes différents à travers la planète.

Le présent et l’avenir de HPSS

HPSS a été initialement créé pour faire avancer le monde en ce qui concerne les normes de réseau, les capacités de stockage, les taux de transfert, etc. Ce projet a réussi à rester à la pointe du progrès et de l’évolution technologique plus de trente ans après sa création – et il ne fait aucun doute qu’il continuera à le faire à l’avenir.

Ce système n’a cessé d’évoluer, de se développer et de mettre en œuvre de nouvelles capacités au fil du temps, en apportant des solutions aux problèmes existants et en rehaussant le niveau de diverses normes en matière de gestion de données à grande échelle. Par exemple, la convivialité est désormais considérée comme le prochain grand objectif – une tentative de rendre le stockage HPSS plus facile à utiliser tout en relevant d’autres défis bien connus du système, tels que les limites de taille et de longueur des fichiers.

HPSS et Bacula Enterprise

HPSS est une solution de stockage de données très spécifique, souvent utilisée pour les environnements scientifiques, de recherche et de laboratoire – typiquement dans les organisations gouvernementales. Le fait que ces cas d’utilisation soient si éloignés des besoins des entreprises ordinaires ne signifie pas que ces données ne doivent pas être correctement non protégées. C’est même tout le contraire. Heureusement, des solutions telles que Bacula Enterprise existent pour protéger et sauvegarder de nombreux types de données et d’environnements de stockage différents – y compris ceux du HPC et du supercalculateur.

Des entités gouvernementales telles que la NASA et les laboratoires nationaux américains font confiance à Bacula Enterprise pour protéger de nombreux pétaoctets de données stockées à l’aide d’IBM HPSS. Par exemple, parmi les raisons pour lesquelles la NASA a choisi Bacula pour ses environnements exigeants, on peut citer la prise en charge de HPSS prête à l’emploi, l’accès multi-utilisateurs, le cryptage conforme à la norme FIPS et l’absence de mode de licence basé sur la capacité. Outre sa connexion transparente avec la technologie HPSS et sa grande évolutivité, Bacula tend à être la solution de sauvegarde préférée dans les déploiements de supercalculateurs et de HPC en raison de ses qualités de sécurité élevées, de ses outils de gestion HPC spéciaux et de sa capacité à gérer des milliards de fichiers. De plus, le modèle de licence de Bacula n’est pas facturé en fonction du volume de données, ce qui permet de réduire les coûts de manière significative.

Pour en savoir plus sur le succès de Bacula Enterprise auprès de la NASA (ainsi que sur les capacités de sauvegarde et de restauration de Bacula pour HPSS), consultez notre article dédié à ce sujet.

À propos de l’auteur
Rob Morrison
Rob Morrison est le directeur marketing de Bacula Systems. Il a commencé sa carrière dans le marketing informatique chez Silicon Graphics en Suisse, où il a obtenu de bons résultats dans divers rôles de gestion du marketing pendant près de 10 ans. Au cours des 10 années suivantes, Rob a également occupé divers postes de gestion du marketing chez JBoss, Red Hat et Pentaho, assurant la croissance des parts de marché de ces sociétés bien connues. Il est diplômé de l'université de Plymouth, titulaire d'un diplôme spécialisé en médias et communications numériques, et a suivi un programme d'études à l'étranger.
Laissez un commentaire

Votre adresse email ne sera pas publiée. Les champs requis sont indiqués *