Inicio > Blog de copias de seguridad y recuperación > ¿Qué es el almacenamiento HPSS? La copia de seguridad de IBM HPSS

¿Qué es el almacenamiento HPSS? La copia de seguridad de IBM HPSS

1 Star2 Stars3 Stars4 Stars5 Stars
(12 votos, media: 4,94 fuera de 5)
Cargando...
Actualizado 30th enero 2024, Rob Morrison

¿Qué es HPSS?

Sistema de almacenamiento de alto rendimiento (HPSS) es un software de gestión de almacenamiento altamente escalable y flexible desarrollado por la Colaboración HPSS con el fin de proporcionar un sistema de gestión de almacenamiento jerárquico (HSM) basado en políticas y definido por software. Esta tecnología suele demandarse en muchos entornos informáticos HPC (computación de alto rendimiento) y SuperComputing (supercomputación). Una de las razones es que un único espacio de nombres HPSS puede gestionar miles de millones de archivos, puede crear desde unos pocos archivos por segundo hasta miles por segundo y escalar desde petabytes hasta exabytes de datos.

HPSS utiliza una combinación de tecnologías SAN, LAN y clúster para combinar muchos medios de almacenamiento diferentes en una única infraestructura (ordenadores, discos, unidades de cinta o bibliotecas de cintas).

HPSS admite muchos métodos diferentes de creación de datos. Por ejemplo, puede trabajar con FUSE, FTP, FTP paralelo e incluso con API de cliente (E/S paralela). La API de HPSS es compatible con Solaris, Linux y AIX, y la compatibilidad completa con Linux se añadió con la versión 7.5. La totalidad de HPSS se crea utilizando un RDBMS (sistema de gestión de bases de datos relacionales) escalable de IBM llamado Db2.

Ventajas de HPSS

El almacenamiento HPSS es muy complejo bajo el capó, con la mayoría de sus características creadas para proporcionar almacenamiento escalable a largo plazo para las necesidades de la empresa. Algunas de las ventajas más significativas de IBM HPSS incluyen:

  • Disponibilidad. Dado que Db2 ofrece la posibilidad de garantizar la integridad de los metadatos al tiempo que ofrece una rápida recuperación en caso de fallo, no resulta especialmente difícil para HPSS proporcionar una combinación de protección de datos a largo plazo y alta disponibilidad de datos. HPSS RAIT (Redundant Array of Independent Tapes) proporciona capacidades de redundancia de datos baratas, y la exactitud de los datos se garantiza mediante la protección de bloques lógicos y la validación de la suma de comprobación de archivos.
  • Eficiencia. HPSS utiliza una combinación de técnicas para garantizar un alto rendimiento y una eficiencia impresionante. La latencia de acceso se reduce mediante la organización del orden R/W, la velocidad de transferencia de archivos de gran tamaño se mejora mediante la transferencia paralela y la coubicación, y la transparencia para los usuarios finales se consigue mediante diversas capacidades de automatización con gestión de políticas.
  • Soporte. HPSS recibe soporte y es proporcionado por IBM con un impresionante número de ventajas: instalación, configuración, resultados de pruebas, verificación de componentes y una detallada arquitectura de la solución.
  • Enorme escalabilidad. HPSS tiene una estructura única que le permite escalar de forma incremental cuando sea necesario. Si se añaden recursos de almacenamiento, red y computación al espacio de nombres, es posible almacenar exabytes de datos y miles de millones de archivos dentro de ese mismo espacio de nombres.

Innovaciones del HPSS

HPSS es un ejemplo excepcional de cómo un software puede vivir más de diez años antes de ser sustituido por completo. El foro de usuarios de HPSS de 2022 marcó el trigésimo cumpleaños de este software, y a día de hoy sigue funcionando con fuerza. Algunas de las innovaciones más destacadas que el HPSS aportó al sector son:

  • Llamadas a procedimientos remotos. HPSS está ampliamente considerada como una de las primeras infraestructuras en obtener ventajas informáticas distribuidas mediante el uso de llamadas a procedimientos remotos.
  • Gestión jerárquica del almacenamiento. Dado que HSM es un modelo de almacenamiento por niveles, implementarlo en un entorno práctico puede resultar extremadamente difícil. HPSS es oficialmente el primer ejemplo de la historia de una implementación de HSM con éxito comercial.
  • Arquitectura basada en red. Hubo un periodo concreto en la década de 1990 en el que prácticamente todas las unidades HPC se transformaron utilizando un modelo de diseño distribuido como base, lo que hizo prácticamente obligatorio el uso de la red para la transferencia de datos. HPSS fue una de las primeras implementaciones con éxito de la industria de la capacidad de red distribuida.
  • Una clara división entre comandos de tráfico de control y comandos de datos. HPSS mejoró significativamente sus opciones de escalabilidad al separar completamente dos grupos de funciones diferentes: los comandos de datos y los de control de tráfico.
  • Transacciones distribuidas. Toda la idea de una arquitectura distribuida fue propuesta inicialmente por un pequeño número de soluciones (entre ellas HPSS), y la implementación de transacciones distribuidas fue el principal catalizador de esta sugerencia.

Orígenes del HPSS

El HPSS se creó inicialmente en 1992 y fue posible gracias a la investigación del Laboratorio Nacional de Almacenamiento (NSL). El objetivo principal del NSL era comercializar tecnologías tanto de hardware como de software con el fin de superar diversos cuellos de botella relacionados con la información digital, como el almacenamiento de datos y los cuellos de botella informáticos.

NSL se creó como una colaboración entre IBM y cinco laboratorios nacionales del Departamento de Energía de EE.UU.:

  • Oak Ridge (ORNL);
  • Lawrence Livermore (LLNL);
  • Sandia (SNL);
  • Los Álamos (LANL);
  • Lawrence Berkeley (LBL);

El grupo de organizaciones de investigación mencionado se dio cuenta de que la llamada «explosión del almacenamiento de datos» estaba a punto de producirse, lo que haría que múltiples parámetros como el almacenamiento de datos, la velocidad de transferencia de datos y la potencia de cálculo aumentaran enormemente. Esta colaboración pretendía crear y desplegar una infraestructura capaz de escalar sin esfuerzo con todos los parámetros previstos y más allá. El objetivo era crear un sistema capaz de soportar gigabytes de velocidad de transferencia de datos, decenas de terabytes de caudal de datos y petabytes o incluso exabytes de datos almacenados.

La colaboración original de IBM en el HPSS comprendió claramente que no hay una sola organización en el mundo que disponga de los recursos y la experiencia necesarios para satisfacer todos los nuevos requisitos de almacenamiento y transferencia a la vez. Durante toda la existencia del HPSS, más de veinte empresas y organizaciones diferentes contribuyeron a desarrollar este proyecto, incluidos centros de supercomputación de la NSF, laboratorios federales de EE.UU., universidades, etc.

El equipo central de desarrollo del HPSS a partir de 2022 estaba formado por los seis colaboradores originales, como IBM Global Business Services, LLNL, ORNL, LANL, SNL y LBNL. El Centro Nacional de Computación Científica para la Investigación Energética (NERSC) también se considera un colaborador importante en el desarrollo de HPSS como producto.

Los logros más destacados del HPSS

Durante sus treinta años de historia, el sistema de almacenamiento HPSS consiguió cambiar y evolucionar, aportando nuevos logros y capacidades a la industria. He aquí algunos ejemplos de ello:

  • Una prueba relativamente desconocida que implicaba la copia de seguridad de mil millones de archivos fue realizada por primera vez con éxito en noviembre de 2007 por el Centro de Supercomputación de San Diego – los datos en cuestión se copiaron de GPFS (el sistema de archivos en clúster propio de IBM) a HPSS.
  • El Centro Nacional de Aplicaciones de Supercomputación de Illinois puso en marcha una infraestructura HPSS con 380 Petabytes de almacenamiento en mayo de 2013, una cantidad de almacenamiento realmente tremenda en ese momento.

Ejemplos notables de uso de HPSS

HPSS es utilizado por docenas de empresas conocidas y populares de todo el mundo, ofreciendo un acceso más accesible y eficiente a grandes conjuntos de datos. En la siguiente lista, presentamos una serie de proyectos que utilizan HPSS para el almacenamiento de datos a largo plazo:

  • El Instrumento Espectroscópico de la Energía Oscura – más de 5 Petabytes de resultados de experimentos y datos de simulación.
  • El Instituto Conjunto del Genoma – más de 20 Petabytes de información, incluyendo secuencias mapeadas, genomas ensamblados, secuencias de calidad controlada, secuencias en bruto, transcriptomas, y mucho más.
  • La Fuente de Luz Avanzada (Laboratorio de Berkeley) – más de 4 Petabytes de datos durante diez años, incluida toda la información de la línea de haces de tomografía.
  • El Grupo Intergubernamental de Expertos sobre el Cambio Climático – más de 30 Petabytes de información, incluyendo simulaciones del sistema terrestre, simulaciones climáticas, y muchos más datos que contribuyeron al Reanálisis del Siglo XX (un proyecto internacional con el objetivo de crear un conjunto de datos de circulación atmosférica para todo el siglo XX).
  • El fondo cósmico de microondas – al menos 5,5 Petabytes de simulaciones y datos procedentes de varios experimentos, entre ellos los del Polo Sur, el BICEP, el Keck y 17 telescopios diferentes repartidos por todo el planeta.

El presente y el futuro del HPSS

El HPSS se creó inicialmente para impulsar el avance del mundo en cuanto a estándares de red, capacidades de almacenamiento, velocidades de transferencia, etc. Este proyecto consiguió mantenerse a la vanguardia del progreso y la evolución tecnológica más de treinta años después de su creación, y no cabe duda de que seguirá haciéndolo en el futuro.

Este sistema ha seguido evolucionando, creciendo e implementando nuevas capacidades con el paso del tiempo, introduciendo soluciones a los problemas existentes y elevando el listón de diversos estándares en lo que respecta a la gestión de datos a gran escala. Por ejemplo, la facilidad de uso se considera ahora como el próximo gran objetivo, un intento de hacer que el almacenamiento HPSS sea más fácil de trabajar, al tiempo que se abordan otros retos bien conocidos del sistema, como las limitaciones de tamaño y longitud de los archivos.

HPSS y Bacula Enterprise

HPSS es una solución de almacenamiento de datos muy específica para cada caso, que suele utilizarse en entornos científicos, de investigación y de laboratorio, normalmente en organizaciones gubernamentales. El hecho de que estos casos de uso estén tan alejados de las necesidades del tipo «plain-vanilla businesses» no significa que estos datos no deban desprotegerse adecuadamente. Más bien al contrario. Por suerte, existen soluciones como Bacula Enterprise para proteger y salvaguardar muchos tipos de datos y entornos de almacenamiento diferentes, incluidos los de HPC y supercomputación.

Entidades gubernamentales como la NASA y los Laboratorios Nacionales de EE.UU. confían en Bacula Enterprise para salvaguardar muchos petabytes de datos almacenados mediante IBM HPSS. Por ejemplo, algunas de las razones por las que la NASA eligió Bacula para sus exigentes entornos fueron que ofrecía compatibilidad con HPSS lista para usar, acceso multiusuario, cifrado conforme a FIPS y ningún modo de licencia basado en la capacidad. Además de conectarse a la perfección con la tecnología HPSS e igualar su enorme escalabilidad, Bacula tiende a ser la solución de copia de seguridad favorita en los despliegues de supercomputación y HPC por sus elevadas cualidades de seguridad, sus herramientas especiales de gestión de HPC y su capacidad para poder manejar miles de millones de archivos. Además, el modelo de licencias de Bacula no cobra por volumen de datos, lo que reduce significativamente los costes.

Obtenga más información sobre el éxito de Bacula Enterprise con la NASA (así como sobre las capacidades de copia de seguridad y recuperación de Bacula para HPSS) en nuestro artículo dedicado a este tema.

Sobre el autor
Rob Morrison
Rob Morrison es el director de marketing de Bacula Systems. Comenzó su carrera de marketing de TI con Silicon Graphics en Suiza, desempeñando con fuerza varios puestos de gestión de marketing durante casi 10 años. En los siguientes 10 años, Rob también ocupó varios puestos de gestión de marketing en JBoss, Red Hat y Pentaho, asegurando el crecimiento de la cuota de mercado de estas conocidas empresas. Se graduó en la Universidad de Plymouth y tiene una licenciatura en Medios Digitales y Comunicaciones, y completó un programa de estudios en el extranjero.
Deja un comentario

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *