Inicio > Blog de copias de seguridad y recuperación > Guía y normas de seguridad para HPC: NIST SP 800-223 y SP 800-234
Actualizado 6th octubre 2025, Rob Morrison

Contents

¿Qué es la seguridad informática de alto rendimiento y por qué es importante?

La informática de alto rendimiento (HPC) es una infraestructura fundamental para los descubrimientos científicos, el avance de la inteligencia artificial y la competitividad económica nacional. Dado que estos sistemas procesan datos de investigación cada vez más sensibles y soportan cargas de trabajo computacionales de misión crítica, los enfoques tradicionales de seguridad empresarial no logran abordar los retos únicos inherentes a los entornos HPC. Saber cómo trabajar con estas diferencias fundamentales es esencial para implementar medidas de seguridad eficaces que protejan los valiosos recursos computacionales sin comprometer la productividad general.

La computación de alto rendimiento se refiere a la práctica de utilizar superordenadores y técnicas de procesamiento paralelo para resolver problemas computacionales muy complejos que exigen una enorme potencia de procesamiento. Estos sistemas suelen contar con miles de procesadores interconectados, aceleradores especializados como las GPU y una infraestructura de red de alta velocidad capaz de realizar cuatrillones de cálculos por segundo. Los sistemas HPC soportan aplicaciones críticas en multitud de ámbitos:

  • Investigación científica y modelización: simulación climática, descubrimiento de fármacos, física nuclear y ciencia de los materiales.
  • Inteligencia artificial y aprendizaje automático: entrenamiento de grandes modelos de lenguaje, visión artificial e investigación en aprendizaje profundo.
  • Ingeniería y diseño: dinámica de fluidos computacional, análisis estructural y optimización de productos.
  • Modelización financiera: análisis de riesgos, comercio algorítmico y previsiones económicas.
  • Aplicaciones de seguridad nacional: investigación criptográfica, modelización de defensa y análisis de inteligencia.

Las implicaciones de seguridad de los sistemas HPC van mucho más allá de las preocupaciones típicas de la infraestructura de TI. Un ataque exitoso a una instalación HPC podría dar lugar al robo de propiedad intelectual por valor de miles de millones de dólares, comprometiendo datos de investigación sensibles, interrumpiendo programas científicos críticos o incluso siendo clasificado como una violación de la seguridad nacional.

Por qué son importantes las normas y la arquitectura de seguridad HPC en las instalaciones modernas

La seguridad HPC difiere fundamentalmente de la TI empresarial por su complejidad arquitectónica y su diseño centrado en el rendimiento. A diferencia de la infraestructura empresarial convencional, los sistemas HPC dan prioridad al rendimiento computacional bruto mientras gestionan cientos de miles de componentes, lo que crea superficies de ataque ampliadas difíciles de supervisar de forma exhaustiva. Las herramientas de seguridad tradicionales no pueden manejar el volumen y la velocidad de las operaciones HPC, mientras que las cargas de trabajo sensibles al rendimiento hacen que los controles de seguridad estándar, como el análisis de malware en tiempo real, sean potencialmente destructivos para las operaciones a escala de petabytes.

Antes de las normas NIST SP 800-223 y SP 800-234, las organizaciones carecían de una guía completa y estandarizada adaptada a los entornos HPC. Ahora, estas normas complementarias abordan esta laguna de conocimiento utilizando una arquitectura de referencia de cuatro zonas que reconoce los distintos requisitos de seguridad en los puntos de acceso, los sistemas de gestión, los recursos informáticos y el almacenamiento de datos. Incluso documenta escenarios de ataque específicos de HPC, como la recopilación de credenciales y los ataques a la cadena de suministro.

Las instalaciones del mundo real ejemplifican estos retos. Los sistemas del Laboratorio Nacional de Oak Ridge contienen cientos de miles de núcleos informáticos y almacenamiento a escala de exabytes, al tiempo que equilibran los requisitos de misiones múltiples que dan soporte a investigaciones no clasificadas, proyectos sensibles y aplicaciones clasificadas. Se adaptan a la colaboración internacional y a entornos de software dinámicos que los enfoques de seguridad empresariales tradicionales no pueden abordar de forma eficaz.

El modelo de multitenencia crea una complejidad adicional, ya que los usuarios de HPC requieren acceso directo al sistema, compilación de software personalizado y capacidades de ejecución de código arbitrario. Esto exige límites de seguridad que equilibren la flexibilidad de la investigación con los requisitos de protección en ecosistemas especializados, como bibliotecas científicas, códigos de investigación y gestores de paquetes con cientos de dependencias.

¿Cómo entendemos la arquitectura de seguridad y las amenazas de la HPC?

La seguridad de la HPC requiere un cambio fundamental de perspectiva con respecto a los modelos de seguridad empresariales tradicionales. La complejidad arquitectónica única y el panorama de amenazas de los entornos de computación de alto rendimiento exigen marcos especializados que reconozcan las tensiones existentes entre el rendimiento computacional y los controles de seguridad.

La norma NIST SP 800-223 proporciona la base arquitectónica al establecer un modelo de referencia de cuatro zonas que reconoce los distintos requisitos de seguridad de los diferentes componentes del sistema HPC. Este enfoque por zonas reconoce que las políticas de seguridad generales no son lo suficientemente eficaces a la hora de abordar los distintos panoramas de amenazas y requisitos operativos que se encuentran en los puntos de acceso, los sistemas de gestión, los recursos informáticos y la infraestructura de almacenamiento de datos.

La relación complementaria entre NIST SP 800-223 y SP 800-234 crea un marco de seguridad integral diseñado específicamente para entornos HPC. En este caso, SP 800-223 define la estructura arquitectónica e identifica los principales escenarios de amenazas, mientras que SP 800-234 proporciona una guía de implementación detallada a través de superposiciones de controles de seguridad que adaptan los marcos existentes al contexto operativo específico de HPC.

Un enfoque de doble estándar como este aborda las lagunas críticas en las directrices de seguridad de HPC al proporcionar tanto la arquitectura conceptual como los detalles prácticos de implementación. Con él, las organizaciones pasan de adaptar marcos de seguridad empresarial inadecuados a implementar medidas de seguridad específicas que protegen los recursos computacionales sin comprometer la productividad de la investigación ni las misiones de descubrimiento científico.

¿Qué establece la norma NIST SP 800-223 para la arquitectura de seguridad de la HPC?

La norma NIST SP 800-223 proporciona el marco arquitectónico fundamental que transforma la seguridad de la HPC de implementaciones ad hoc a estrategias de protección estructuradas y basadas en zonas. Esta norma introduce un enfoque sistemático para proteger entornos HPC complejos, al tiempo que mantiene las características de rendimiento esenciales para las operaciones de computación científica e investigación.

¿Cómo funciona la arquitectura de referencia de cuatro zonas?

La arquitectura de cuatro zonas reconoce que los diferentes componentes de HPC requieren enfoques de seguridad distintos en función de sus funciones operativas, su exposición a amenazas y sus requisitos de rendimiento. Este modelo por zonas sustituye las políticas de seguridad únicas para todos por protecciones específicas que reconocen las características únicas de cada área funcional.

Zona Componentes principales Enfoque de seguridad Retos clave
Zona de acceso Nodos de inicio de sesión, nodos de transferencia de datos, portales web Autenticación, gestión de sesiones, protección contra amenazas externas Exposición directa a Internet, transferencias de datos de gran volumen
Zona de gestión Administración del sistema, programadores de tareas, gestión de la configuración Controles de acceso privilegiado, integridad de la configuración Protección de privilegios elevados, impacto potencial en todo el sistema
Zona de computación Nodos de computación, aceleradores, redes de alta velocidad Aislamiento de recursos, preservación del rendimiento Requisitos de rendimiento a nivel de microsegundos, multitenencia
Zona de almacenamiento de datos Sistemas de archivos paralelos, búferes de ráfagas, almacenamiento de petabytes Integridad de los datos, protección de alto rendimiento Volúmenes de datos masivos, miles de operaciones de E/S simultáneas

La zona de acceso sirve como interfaz externa que debe equilibrar la accesibilidad para los usuarios legítimos con la protección contra amenazas externas. Los controles de seguridad aquí se centran en la validación del acceso inicial, al tiempo que respaldan las sesiones interactivas y las transferencias masivas de datos esenciales para la productividad de la investigación.

Los componentes de la zona de gestión requieren una protección de privilegios elevada, ya que cualquier compromiso aquí podría afectar a toda la infraestructura de HPC. Las medidas de seguridad hacen hincapié en los controles de acceso administrativo y la supervisión de las operaciones privilegiadas que controlan el comportamiento del sistema y la asignación de recursos en todas las zonas.

La zona de computación de alto rendimiento se enfrenta al reto de mantener el rendimiento computacional y, al mismo tiempo, proteger los recursos compartidos entre múltiples cargas de trabajo simultáneas. Los controles deben minimizar la sobrecarga y evitar la contaminación cruzada entre diferentes proyectos de investigación que comparten la misma infraestructura física.

Las implementaciones de seguridad de la zona de almacenamiento de datos tienen como objetivo proteger contra la corrupción de datos y el acceso no autorizado, al tiempo que mantienen el rendimiento en sistemas que manejan almacenamiento a escala de petabytes con miles de operaciones simultáneas desde nodos de computación distribuidos.

¿Cuáles son los escenarios de ataque reales contra los sistemas HPC?

El NIST SP 800-223 documenta cuatro patrones de ataque principales que se dirigen específicamente a las características de la infraestructura HPC y a los requisitos operativos. Estos escenarios reflejan la inteligencia sobre amenazas reales y el análisis de incidentes de instalaciones HPC de todo el mundo.

Recopilación de credenciales

Los ataques de recopilación de credenciales aprovechan la duración prolongada de las sesiones y los patrones de acceso compartido habituales en los entornos HPC. Los atacantes se dirigen a trabajos computacionales de larga duración y cuentas de proyectos compartidas para establecer un acceso persistente que permanece sin detectar durante meses. El ataque tiene éxito al comprometer las credenciales externas mediante phishing o violaciones de datos, y luego aprovechar los patrones de acceso HPC legítimos para evitar la detección mientras se mantiene el acceso continuo al sistema.

Explotación remota

Los escenarios de explotación remota se centran en servicios externos vulnerables que proporcionan una funcionalidad HPC legítima, pero crean vectores de ataque a los sistemas internos. Los portales web, los servicios de transferencia de archivos y las herramientas de visualización remota se convierten en puntos pivote cuando no están debidamente protegidos o aislados. Los atacantes explotan estos servicios para eludir las defensas perimetrales y obtener un punto de apoyo inicial dentro del entorno HPC antes de desplazarse lateralmente a sistemas más sensibles.

Ataques a la cadena de suministro

Los ataques a la cadena de suministro se dirigen al complejo ecosistema de software que soporta las operaciones de HPC. El código malicioso entra a través de los canales de CI/CD (integración continua/implementación continua), los repositorios de software comprometidos o las dependencias contaminadas en los sistemas de gestión de paquetes como Spack. Estos ataques son especialmente peligrosos porque afectan a múltiples instalaciones simultáneamente y pueden permanecer inactivos hasta que se activan por condiciones computacionales específicas o entradas de datos.

Ataques de «confused deputy»

Los ataques de «confused deputy» manipulan programas privilegiados para que hagan un uso indebido de su autoridad en nombre de partes no autorizadas. En entornos HPC, estos ataques suelen dirigirse a programadores de tareas, motores de flujo de trabajo o herramientas administrativas que operan con privilegios elevados en múltiples zonas. El ataque tiene éxito al proporcionar entradas maliciosas que hacen que los programas legítimos realicen acciones no autorizadas mientras parecen funcionar con normalidad.

¿Qué hace que el panorama de amenazas de HPC sea único?

El entorno de amenazas de HPC difiere significativamente de la TI empresarial debido a las decisiones de diseño basadas en el rendimiento y los requisitos operativos centrados en la investigación, que crean nuevas superficies de ataque y retos defensivos.

Las compensaciones entre rendimiento y seguridad crean vulnerabilidades fundamentales que no existen en los entornos de TI tradicionales. Las concesiones comunes basadas en el rendimiento incluyen:

  • Funciones de seguridad desactivadas: aleatorización del diseño del espacio de direcciones, canarios de pila y protección de memoria eliminados para mejorar la eficiencia computacional.
  • Interconexiones de alta velocidad sin cifrar: redes sensibles a la latencia que sacrifican el cifrado para obtener ganancias de rendimiento de microsegundos.
  • Sistemas de archivos que priorizan el rendimiento: sistemas de almacenamiento compartido que minimizan la sobrecarga del control de acceso para maximizar el rendimiento de E/S.
  • Requisitos de autenticación relajados: los trabajos de larga duración y el procesamiento por lotes afectan negativamente a la aplicación de la autenticación multifactorial.

Estas decisiones arquitectónicas crean condiciones explotables que los atacantes aprovechan para comprometer sistemas que, de otro modo, estarían protegidos en entornos empresariales tradicionales.

La complejidad de la cadena de suministro en entornos HPC supera con creces los retos típicos de la gestión de software empresarial. Las instalaciones HPC modernas gestionan más de 300 sistemas de flujo de trabajo con complejos gráficos de dependencia que abarcan bibliotecas científicas, middleware, software de sistema y códigos de investigación personalizados. Esta complejidad inherente crea múltiples puntos de entrada para la inyección de código malicioso y hace que la validación de seguridad integral sea extremadamente difícil de implementar y mantener.

La multitenencia en los proyectos de investigación complica la aplicación de los límites de seguridad tradicionales. A diferencia de los sistemas empresariales con roles de usuario y clasificación de datos bien definidos, los sistemas HPC deben admitir membresías dinámicas en los proyectos, colaboraciones temporales y diferentes niveles de sensibilidad de los datos dentro de una infraestructura compartida. Esta estructura crea escenarios en los que los controles de acceso y los mecanismos de aislamiento de datos tradicionales resultan inadecuados para los requisitos de la informática de investigación.

La aparición del «phishing científico» es otro tema importante: un nuevo vector de ataque en el que los actores maliciosos proporcionan datos de entrada, modelos computacionales o flujos de trabajo de análisis contaminados que parecen legítimos pero contienen exploits ocultos. Estos ataques se dirigen a la naturaleza colaborativa de la investigación científica y a la tendencia de los investigadores a compartir datos, códigos y recursos computacionales más allá de los límites institucionales sin pasar por una validación de seguridad exhaustiva.

¿Qué ofrece la superposición de controles de seguridad de NIST SP 800-234?

NIST SP 800-234 traduce el marco arquitectónico de SP 800-223 en controles de seguridad aplicables específicamente adaptados a las realidades operativas de la HPC. Esta norma proporciona una guía de implementación práctica que transforma la arquitectura de seguridad teórica en medidas de protección desplegables, al tiempo que mantiene las características de rendimiento esenciales para la computación científica.

¿Cómo funciona el marco de superposición Moderate Baseline Plus?

La superposición SP 800-234 se basa en la base moderada NIST SP 800-53, aplicando adaptaciones específicas para HPC con el fin de crear un marco de control de seguridad integral. Este enfoque reconoce que los entornos HPC requieren tanto prácticas de seguridad establecidas como adaptaciones especializadas que aborden requisitos computacionales únicos.

El marco abarca un total de 288 controles de seguridad, que consisten en los 287 controles de la línea base moderada SP 800-53, más la adición de AC-10 (control de sesiones simultáneas) específicamente para entornos HPC multiusuario. Esta línea base proporciona medidas de seguridad probadas, al tiempo que reconoce que las implementaciones empresariales estándar a menudo no son suficientes para las demandas operativas de HPC.

Sesenta controles críticos reciben una adaptación específica para HPC y orientación complementaria que aborda los retos únicos de los entornos de computación de alto rendimiento. Estas modificaciones van desde enfoques de implementación conscientes del rendimiento hasta requisitos completamente nuevos que no existen en los entornos de TI tradicionales. El proceso de adaptación tiene en cuenta factores como:

  • Minimización del impacto en el rendimiento: controles adaptados para reducir la sobrecarga computacional.
  • Implementaciones adecuadas a la escala: medidas de seguridad diseñadas para sistemas con cientos de miles de componentes.
  • Consideraciones de multitenencia: controles mejorados para entornos informáticos de investigación compartidos
  • Aplicaciones específicas de zona: requisitos diferenciados en las zonas de acceso, gestión, computación y almacenamiento de datos

La orientación específica de zona proporciona a los implementadores instrucciones detalladas para aplicar los controles de forma diferente en la arquitectura de cuatro zonas. Las zonas de acceso requieren enfoques de autenticación diferentes a los de las zonas de computación, mientras que las zonas de gestión necesitan una supervisión mejorada de los privilegios que sería poco práctica para las zonas de almacenamiento de datos de alto rendimiento.

La guía complementaria es una ampliación de las descripciones de los controles estándar que utiliza contexto HPC adicional, ejemplos de implementación y consideraciones de rendimiento. Esta guía salva la brecha entre los requisitos de seguridad genéricos y las realidades operativas específicas de los entornos informáticos científicos.

¿Cuáles son las categorías de control críticas para HPC?

La superposición identifica las familias de controles clave que requieren la adaptación más significativa para los entornos HPC, reflejando las características operativas únicas y los panoramas de amenazas de los sistemas informáticos de alto rendimiento.

Control de acceso basado en roles

El control de acceso basado en roles (AC-2, AC-3) recibe una amplia orientación específica para HPC debido a los complejos patrones de acceso inherentes a la computación para investigación. A diferencia de los entornos empresariales con roles de usuario relativamente estáticos, los sistemas HPC deben admitir membresías dinámicas en proyectos, colaboraciones de investigación temporales y requisitos de acceso variables en función de las necesidades de recursos computacionales. La gestión de cuentas debe adaptarse a los investigadores que pueden necesitar diferentes niveles de privilegios en múltiples proyectos simultáneos, al tiempo que se mantiene una responsabilidad clara y registros de auditoría.

Registro específico para HPC

El registro específico para HPC (AU-2, AU-4, AU-5) aborda los retos de volumen y velocidad masivos de la supervisión de la seguridad en entornos de alto rendimiento. Las prioridades de registro específicas de cada zona ayudan a las organizaciones a centrar sus esfuerzos de supervisión en los eventos de seguridad más críticos, al tiempo que gestionan petabytes de datos de registro potenciales. Las estrategias de gestión del volumen incluyen filtrado inteligente, análisis en tiempo real y enfoques de almacenamiento por niveles que mantienen la visibilidad de la seguridad sin sobrecargar los sistemas de almacenamiento y análisis.

Gestión de sesiones

Los controles de gestión de sesiones (AC-2(5), AC-10, AC-12) se adaptan a los requisitos de tiempo únicos de las cargas de trabajo computacionales. Los trabajos computacionales de larga duración pueden ejecutarse durante días o semanas, lo que requiere mecanismos de tiempo de espera de sesión que distingan entre sesiones de depuración interactivas y procesamiento por lotes legítimo. Las sesiones de depuración interactivas necesitan políticas de tiempo de espera diferentes a las de la ejecución automatizada del flujo de trabajo, mientras que la detección de inactividad debe tener en cuenta los patrones computacionales válidos que pueden parecer inactivos para los sistemas de supervisión tradicionales.

Arquitectura de autenticación

Las directrices de arquitectura de autenticación (IA-1, IA-2, IA-11) abordan cuándo se debe exigir la autenticación multifactorial frente a la delegada dentro de los límites de confianza establecidos del sistema. Los puntos de acceso externos requieren una autenticación sólida, pero la comunicación interna entre zonas puede utilizar autenticación basada en certificados o en tokens para mantener el rendimiento y garantizar la responsabilidad. Las directrices ayudan a las organizaciones a equilibrar los requisitos de seguridad con la necesidad de una comunicación automatizada y de alta velocidad entre sistemas.

¿Qué implementaciones de seguridad específicas para cada zona se recomiendan?

La superposición proporciona orientaciones detalladas de implementación para cada zona de la arquitectura de cuatro zonas, reconociendo que los controles de seguridad deben adaptarse a las características operativas específicas y a los perfiles de amenaza de los diferentes componentes del sistema HPC.

Las implementaciones de la zona de acceso se centran en proteger las conexiones externas, al tiempo que admiten las transferencias de datos de gran volumen y las sesiones interactivas esenciales para la productividad de la investigación. Las medidas de seguridad incluyen una supervisión mejorada de las sesiones para los nodos de inicio de sesión, protocolos de transferencia de archivos seguros que mantienen las características de rendimiento y protecciones del portal web que equilibran la usabilidad con la seguridad. La gestión de las sesiones de usuario debe adaptarse tanto al trabajo interactivo como a las operaciones de transferencia de datos automatizadas sin crear barreras a las actividades de investigación legítimas.

Las protecciones de la zona de gestión requieren medidas de seguridad adicionales para las funciones administrativas privilegiadas que afectan a las operaciones de todo el sistema. La supervisión mejorada cubre los patrones de acceso administrativo, el seguimiento de los cambios de configuración y las modificaciones de las políticas del programador de tareas. El registro de operaciones privilegiadas proporciona pistas de auditoría detalladas para las acciones que podrían comprometer la integridad del sistema o afectar a múltiples proyectos de investigación simultáneamente.

Las implementaciones de seguridad de la zona informática abordan el reto de proteger los recursos informáticos compartidos, al tiempo que mantienen los requisitos de rendimiento a nivel de microsegundos de las cargas de trabajo de HPC. La protección de los recursos compartidos de la GPU incluye mecanismos de aislamiento de la memoria, procedimientos de gestión de la energía de emergencia para el apagado ordenado del sistema y procesos de saneamiento de los nodos de cálculo que garantizan un estado limpio entre los diferentes trabajos informáticos. Los controles de seguridad deben minimizar el impacto en el rendimiento y, al mismo tiempo, evitar la contaminación cruzada entre cargas de trabajo de investigación simultáneas.

Las recomendaciones de la zona de almacenamiento de datos se centran en enfoques de protección de la integridad que funcionan eficazmente con sistemas de archivos paralelos a escala de petabytes. Las directrices de implementación abarcan la verificación de integridad distribuida, las estrategias de copia de seguridad para conjuntos de datos masivos y los mecanismos de control de acceso que mantienen un rendimiento de alto rendimiento. El reto consiste en proteger contra los ataques maliciosos y los fallos del sistema que podrían comprometer los datos de investigación que representan años de inversión computacional.

¿Cómo implementan las organizaciones la seguridad HPC en la práctica?

Pasar de la documentación de las normas a la realidad operativa requiere que las organizaciones superen complejos retos de implementación sin perder productividad en la investigación. Las implementaciones exitosas de seguridad HPC equilibran los marcos teóricos con las limitaciones prácticas, la cultura organizativa y la realidad fundamental de que las medidas de seguridad deben mejorar, en lugar de obstaculizar, los descubrimientos científicos.

¿Qué es el modelo de seguridad «sheriffs and deputies»?

Las implementaciones de seguridad HPC más eficaces adoptan lo que los profesionales denominan el «sheriffs and deputies», un marco de responsabilidad compartida que reconoce tanto las capacidades de aplicación gestionadas por las instalaciones como el papel esencial de las prácticas de seguridad gestionadas por los usuarios en la protección de los recursos computacionales.

Los controles gestionados por las instalaciones son los «sheriffs» de la seguridad HPC, ya que proporcionan mecanismos de aplicación centralizados que los usuarios no pueden eludir ni desactivar. Estos controles incluyen reglas de firewall a nivel de red, sistemas de autenticación centralizados, políticas de programación de tareas y mucho más. Las instalaciones también mantienen una supervisión a nivel del sistema que realiza un seguimiento del uso de los recursos, detecta patrones de comportamiento anómalos y proporciona registros de auditoría para los requisitos de cumplimiento.

Los marcos de autorización representan otro componente crítico gestionado por las instalaciones, en el que los Comités de Utilización de Recursos (RUC) y los procesos de aprobación de proyectos garantizan que el acceso computacional se ajuste a los objetivos de investigación aprobados. Estos mecanismos evitan el uso no autorizado de los recursos, al tiempo que mantienen una clara responsabilidad por todas las actividades computacionales dentro de las instalaciones.

Las responsabilidades gestionadas por los usuarios funcionan como «ayudantes» en este modelo de seguridad, encargándose de aspectos que no pueden automatizarse o controlarse de forma centralizada de manera eficaz. Los investigadores son responsables de la desinfección de los datos de entrada, asegurándose de que los conjuntos de datos y los modelos computacionales no contengan contenido malicioso que pueda comprometer la integridad del sistema. La corrección y la seguridad del código pasan a ser responsabilidad de los usuarios, especialmente en el caso de las aplicaciones de investigación personalizadas que los administradores de las instalaciones no pueden validar de forma exhaustiva.

La gestión del acceso a los proyectos suele implicar la coordinación de los usuarios, especialmente en entornos de investigación colaborativa en los que varias instituciones comparten recursos computacionales. Los usuarios deben comprender y cumplir los requisitos de clasificación de datos, las restricciones de control de exportaciones y las protecciones de la propiedad intelectual, que pueden variar entre los diferentes proyectos de investigación que se ejecutan en la misma infraestructura.

Este modelo de responsabilidad compartida reconoce que una seguridad HPC eficaz requiere la participación activa tanto de los operadores de las instalaciones como de los usuarios de la investigación. Ninguna de las partes es capaz de garantizar una protección completa por sí sola: las instalaciones carecen de los conocimientos especializados necesarios para validar todos los códigos y conjuntos de datos de investigación, mientras que los usuarios carecen del acceso a nivel de sistema necesario para implementar protecciones a nivel de infraestructura.

¿Cuáles son las «reglas generales» prácticas de seguridad?

Los profesionales experimentados en seguridad de HPC se basan en principios fundamentales que traducen normas complejas en directrices operativas cotidianas. Estas reglas generales ayudan a las organizaciones a tomar decisiones de seguridad coherentes, al tiempo que se adaptan a la naturaleza dinámica de los entornos informáticos de investigación.

El principio de identidad exige que toda actividad computacional se remonte a una persona identificable y autorizada. Aunque esto puede parecer sencillo, se vuelve mucho más complejo en entornos con cuentas compartidas, flujos de trabajo automatizados y trabajos por lotes de larga duración. Las implementaciones exitosas mantienen registros de auditoría claros que conectan el uso de los recursos computacionales con personas específicas, incluso cuando varios investigadores colaboran en proyectos compartidos o cuando los sistemas automatizados ejecutan flujos de trabajo computacionales en nombre de los usuarios.

El alcance de la autorización debe ajustarse a los límites del proyecto y a los objetivos de investigación aprobados, en lugar de a los modelos tradicionales basados en funciones. La aprobación del Comité de Utilización de Recursos impulsa las decisiones de acceso, garantizando que los privilegios computacionales se ajusten al alcance de las actividades de investigación aprobadas. Este enfoque evita el problema de la desviación del alcance, ya que los investigadores obtienen acceso a recursos que van mucho más allá de los requisitos legítimos de su proyecto, al tiempo que se apoya la naturaleza colaborativa de la investigación científica.

Los requisitos de autenticación siguen un enfoque basado en el riesgo que distingue entre diferentes tipos de acceso al sistema y actividades computacionales. La autenticación de dos factores es obligatoria para los puntos de acceso externos y las funciones administrativas, pero puede delegarse en mecanismos basados en certificados o tokens para la comunicación interna entre sistemas que requiere un funcionamiento automatizado y de alta velocidad.

El intercambio de credenciales representa un desafío persistente en entornos de investigación donde la colaboración a menudo implica recursos computacionales compartidos. La regla práctica hace hincapié en la responsabilidad individual: incluso en proyectos colaborativos, las credenciales de acceso deben seguir vinculadas a personas específicas que sean responsables de las actividades computacionales realizadas bajo su identidad.

¿Qué enfoques de seguridad orientados al rendimiento funcionan?

Las implementaciones de seguridad HPC en el mundo real tienen éxito al reconocer que la degradación del rendimiento socava tanto la seguridad como los objetivos de investigación. Las organizaciones desarrollan estrategias de seguridad que protegen los recursos computacionales sin crear barreras al trabajo científico legítimo.

El análisis de vulnerabilidades requiere una cuidadosa coordinación para evitar afectar a los sistemas de archivos a escala de petabytes que dan servicio a miles de trabajos computacionales simultáneos. Entre los enfoques exitosos se incluyen programas de análisis fuera de las horas punta, arquitecturas de análisis distribuidas que reparten las cargas de evaluación entre múltiples sistemas y análisis inteligentes que se centran en los componentes críticos del sistema en lugar de intentar una cobertura completa durante los periodos de máxima actividad.

La protección contra el malware en entornos HPC abandona los enfoques tradicionales de análisis en tiempo real, que resultan incompatibles con las cargas de trabajo computacionales de alto rendimiento. En su lugar, las implementaciones eficaces utilizan análisis de comportamiento que supervisan los patrones computacionales anómalos, análisis de tráfico de red que detectan patrones de comunicación no autorizados y análisis periódicos fuera de línea de los componentes críticos del sistema durante las ventanas de mantenimiento programadas.

La diferenciación del control de seguridad por tipo de nodo permite a las organizaciones aplicar los niveles de protección adecuados sin crear penalizaciones universales en el rendimiento. Los nodos de inicio de sesión y los sistemas de gestión reciben una supervisión de seguridad exhaustiva, ya que se encargan de funciones administrativas y de autenticación sensibles, mientras que los nodos de cálculo se centran en mecanismos de aislamiento y protección de recursos que mantienen el rendimiento computacional.

Las estrategias de protección de datos equilibran los requisitos de copia de seguridad exhaustiva con la realidad de que los conjuntos de datos a escala de petabytes no se pueden copiar utilizando los enfoques empresariales tradicionales. Las organizaciones implementan estrategias de protección por niveles que proporcionan una protección completa para los datos de configuración críticos y los directorios de inicio de los usuarios, al tiempo que utilizan enfoques alternativos como la replicación distribuida y la comprobación de integridad para grandes conjuntos de datos de investigación que sería poco práctico copiar de forma exhaustiva.

La segmentación de la red proporciona ventajas de seguridad al tiempo que mantiene la comunicación de alta velocidad esencial para las cargas de trabajo computacionales paralelas. Las implementaciones eficaces utilizan el aislamiento basado en zonas, que se ajusta a la arquitectura SP 800-223, al tiempo que garantizan que los patrones de comunicación computacional legítimos no se vean interrumpidos por los controles de seguridad diseñados para los entornos de red empresariales tradicionales.

Lista de verificación de seguridad basada en riesgos para entornos HPC

Esta lista de verificación de seguridad priorizada ayuda a las organizaciones a implementar los controles NIST SP 800-223 y SP 800-234 en función de los niveles de riesgo, lo que garantiza que las vulnerabilidades críticas reciban atención inmediata al tiempo que se crea una protección completa a lo largo del tiempo.

Elementos críticos/de alto riesgo (se requiere acción inmediata)

Control de acceso y autenticación:

  • Verifique que se aplique la autenticación multifactorial en todos los puntos de acceso externos (nodos de inicio de sesión, portales web, nodos de transferencia de datos).
  • Audite las cuentas con privilegios en todas las zonas: asegúrese de que no existan credenciales administrativas compartidas.
  • Revise y documente todas las cuentas de servicio con permisos de acceso entre zonas.
  • Compruebe que se hayan cambiado las contraseñas predeterminadas en todos los componentes de la infraestructura HPC.

Protección de la interfaz externa:

  • Confirme que las reglas del firewall segmentan correctamente las cuatro zonas de seguridad según la arquitectura SP 800-223.
  • Analice los servicios externos en busca de vulnerabilidades conocidas y aplique los parches de seguridad críticos.
  • Verifique que se utilicen protocolos seguros (SSH, HTTPS, SFTP) para todas las comunicaciones externas.
  • Revise y restrinja los servicios de red innecesarios y los puertos abiertos.

Clasificación y protección de datos:

  • Identifique y clasifique todos los datos de investigación confidenciales de acuerdo con los requisitos organizativos y normativos.
  • Verifique el cumplimiento de los controles de exportación para el acceso de investigadores internacionales y el intercambio de datos.
  • Confirme que existen procedimientos de copia de seguridad para los datos de configuración críticos y los directorios de inicio de los usuarios.
  • Validar que se ha implementado el cifrado para los datos en reposo en las zonas de almacenamiento y los datos en tránsito
  • Implementar una solución de protección de datos específica para HPC y alineada con el NIST, como Bacula Enterprise

Elementos de riesgo medio (abordar en un plazo de 3 a 6 meses)

Seguridad del software y de la cadena de suministro:

  • Implementar el seguimiento automatizado del inventario de software utilizando herramientas SBOM (Spack, contenedores o gestores de paquetes)
  • Establecer programas de análisis de vulnerabilidades que minimicen el impacto en las cargas de trabajo computacionales.
  • Documentar y evaluar las prácticas de seguridad de los proveedores de software HPC críticos y sus dependencias.
  • Crear procedimientos de respuesta a incidentes específicos para entornos HPC y arquitectura multizona.

Supervisión y registro:

  • Configurar prioridades de registro específicas para cada zona según las directrices SP 800-234 (controles AU-2, AU-4, AU-5).
  • Implementar la supervisión automatizada de patrones inusuales de uso de recursos computacionales.
  • Establecer políticas de retención de registros que equilibren los costes de almacenamiento con los requisitos de cumplimiento.
  • Implementar herramientas de gestión de información y eventos de seguridad (SIEM) capaces de procesar datos a escala HPC.

Seguridad operativa:

  • Desarrollar y probar procedimientos de recuperación ante desastres para cada zona de seguridad.
  • Crear formación en materia de seguridad específica para entornos HPC y colaboración en investigación.
  • Establecer procedimientos para la implementación segura de software y la gestión de la configuración.
  • Implementar evaluaciones de seguridad periódicas que tengan en cuenta los requisitos de rendimiento de HPC.

Elementos de menor riesgo (actividades de mantenimiento continuo)

Documentación y cumplimiento:

  • Mantener diagramas de red y documentación de la arquitectura del sistema actualizados.
  • Revisar y actualizar las políticas de seguridad anualmente para reflejar los cambios en los requisitos de investigación.
  • Documentar las funciones y responsabilidades de seguridad utilizando el modelo «sheriffs y ayudantes».
  • Realizar revisiones anuales de los derechos de acceso de los usuarios y los permisos basados en proyectos.

Mejora continua:

  • Participar en foros de la comunidad de seguridad de HPC y en el intercambio de información sobre amenazas.
  • Evaluar las tecnologías de seguridad emergentes en cuanto a su aplicabilidad a HPC y su impacto en el rendimiento.
  • Realizar ejercicios periódicos de simulación para la respuesta a incidentes de seguridad.
  • Evaluar los requisitos de seguridad de HPC en la nube e híbridos a medida que evoluciona la infraestructura.

Supervisión del rendimiento:

  • Supervisar el impacto del rendimiento de los controles de seguridad en las cargas de trabajo computacionales.
  • Revisar y optimizar las configuraciones de las herramientas de seguridad para minimizar el impacto en la productividad de la investigación.
  • Evaluar nuevos enfoques de seguridad que mantengan las características de rendimiento de HPC.
  • Realizar un seguimiento de las métricas de seguridad y los indicadores clave de rendimiento específicos de los entornos informáticos de investigación.

¿Cuáles son las consideraciones necesarias en materia de seguridad del software y cadena de suministro para la HPC?

Los entornos HPC dependen de ecosistemas de software extraordinariamente complejos que plantean retos de seguridad únicos, mucho más allá de los entornos informáticos empresariales tradicionales. La gestión de cientos de bibliotecas científicas, sistemas de flujo de trabajo y códigos de investigación personalizados, al tiempo que se mantiene la seguridad, requiere enfoques especializados que equilibren las ventajas de la colaboración de código abierto con una gestión integral de los riesgos.

¿Cómo se protegen las complejas pilas de software HPC?

La gestión de software HPC presenta una complejidad sin precedentes a través de gestores de paquetes como Spack, que manejan intrincadas relaciones de dependencia entre cientos de bibliotecas de computación científica, compiladores y entornos de tiempo de ejecución. Esta complejidad crea retos de seguridad que los enfoques tradicionales de gestión de software empresarial no pueden abordar de manera eficaz.

Los gestores de paquetes en entornos HPC gestionan gráficos de dependencia exponencialmente más complejos que el software empresarial típico. Una sola aplicación científica puede depender de docenas de bibliotecas matemáticas, cada una con sus propias dependencias de compiladores, bibliotecas de comunicación y componentes a nivel de sistema. Spack, el gestor de paquetes HPC líder, gestiona habitualmente entre 300 y 500 paquetes de software distintos con relaciones de dependencia que cambian en función de las opciones de compilador, los indicadores de optimización y las arquitecturas de hardware de destino.

Las implicaciones de seguridad incluyen vulnerabilidades en la cadena de suministro, donde el código malicioso entra a través de cualquier punto del gráfico de dependencias. A diferencia de los entornos empresariales con catálogos de software controlados, los sistemas HPC incorporan regularmente códigos de investigación de vanguardia, bibliotecas experimentales y aplicaciones científicas personalizadas que pueden carecer de una validación de seguridad exhaustiva.

Las ventajas del software de código abierto impulsan la adopción de HPC, pero complican la gestión de los riesgos de seguridad. Las comunidades de investigación se basan en modelos de desarrollo colaborativo en los que la calidad del código y las prácticas de seguridad varían significativamente entre los distintos proyectos. Las consideraciones clave incluyen:

  • Plazos de divulgación de vulnerabilidades: los proyectos de investigación pueden carecer de procesos formales de respuesta de seguridad.
  • Continuidad del mantenimiento: los proyectos académicos suelen perder la financiación o el apoyo de los desarrolladores.
  • Variación en la calidad del código: los códigos de investigación dan prioridad a la precisión científica sobre las prácticas de seguridad.
  • Complejidad de la integración: la combinación de múltiples códigos de investigación aumenta la superficie de ataque.

Las prácticas de programación defensiva se vuelven esenciales para mitigar las vulnerabilidades del software en los códigos de investigación. Las organizaciones implementan procesos de revisión de código para aplicaciones científicas críticas, marcos de pruebas automatizadas que validan tanto la corrección científica como las propiedades de seguridad, y enfoques de sandboxing que aíslan los códigos experimentales de los recursos computacionales de producción.

¿Cuáles son los retos de seguridad de CI/CD y del flujo de trabajo?

La proliferación de sistemas de flujo de trabajo automatizados en entornos HPC crea importantes retos de seguridad, ya que las organizaciones gestionan más de 300 herramientas de gestión de flujos de trabajo distintas, cada una con diferentes modelos de seguridad, requisitos de credenciales y enfoques de integración.

Los sistemas de flujo de trabajo científico van desde simples envíos de trabajos por lotes hasta complejas plataformas de coordinación de múltiples instalaciones que coordinan los recursos computacionales de varias instituciones. Algunos ejemplos comunes son Pegasus, Kepler, Taverna y NextFlow, cada uno de ellos diseñado para diferentes ámbitos científicos y patrones computacionales. Esta diversidad plantea retos de seguridad, ya que cada sistema requiere mecanismos de autenticación diferentes, tiene distintos niveles de madurez en materia de seguridad y se integra de forma diferente con la infraestructura HPC.

La gestión de credenciales para flujos de trabajo automatizados representa un reto de seguridad constante. Los flujos de trabajo científicos suelen requerir el acceso a múltiples instalaciones computacionales, bases de datos externas y recursos en la nube, lo que exige credenciales de larga duración que ejecuten operaciones desatendidas más allá de los límites institucionales. Los enfoques tradicionales de gestión de credenciales empresariales resultan inadecuados para los requisitos de la informática de investigación.

Los riesgos comunes para la seguridad de las credenciales incluyen:

  • Exposición de variables de entorno: credenciales confidenciales almacenadas en entornos de shell accesibles para otros procesos.
  • Fuga de argumentos de la línea de comandos: tokens de autenticación visibles en las listas de procesos y los registros del sistema.
  • Almacenamiento de archivos de configuración: credenciales en texto plano en archivos de configuración de flujos de trabajo compartidos entre equipos de investigación.
  • Autenticación entre instalaciones: credenciales que proporcionan acceso a múltiples instituciones y proveedores de nube.

La orquestación externa crea retos de seguridad adicionales, ya que los sistemas de flujo de trabajo coordinan recursos entre múltiples organizaciones, proveedores de nube e instalaciones de investigación internacionales. Estos sistemas deben equilibrar los requisitos de colaboración en la investigación con los controles de seguridad, las restricciones de exportación y las diferentes políticas de seguridad institucionales.

Los flujos de trabajo automatizados en múltiples instalaciones requieren sofisticados mecanismos de delegación de credenciales que mantengan la seguridad y, al mismo tiempo, permitan un acceso fluido a los recursos más allá de los límites de la organización. Esto incluye el manejo de diferentes sistemas de autenticación, la gestión de la delegación temporal de credenciales y la garantía de pistas de auditoría en múltiples dominios administrativos.

¿Cómo se implementan las listas de materiales de software (SBOM) para HPC?

La gestión del inventario de software en entornos HPC requiere enfoques que gestionen la naturaleza dinámica y centrada en la investigación de la informática científica, al tiempo que proporcionan la visibilidad necesaria para una gestión eficaz de las vulnerabilidades y la elaboración de informes de cumplimiento.

Los entornos de investigación dinámicos complican los enfoques tradicionales de SBOM, ya que las instalaciones de informática científica cambian con frecuencia en función de los requisitos de investigación en constante evolución. Los investigadores instalan regularmente nuevos paquetes de software, modifican las instalaciones existentes con parches personalizados y crean entornos computacionales completamente nuevos para proyectos de investigación específicos. Esto da lugar a inventarios de software en constante evolución que se resisten a los enfoques de documentación estática.

El seguimiento automatizado del inventario se vuelve esencial para mantener listas de materiales de software precisas en entornos donde el seguimiento manual resulta poco práctico. Las implementaciones exitosas incluyen enfoques basados en contenedores que capturan entornos de software completos, la integración de gestores de paquetes que rastrean automáticamente los componentes instalados y herramientas de análisis en tiempo de ejecución que descubren las dependencias reales del software durante la ejecución computacional.

El seguimiento de vulnerabilidades en pilas de software en constante evolución requiere enfoques automatizados que ofrezcan las siguientes capacidades:

  • Supervisar las fuentes ascendentes: realizar un seguimiento de los avisos de seguridad de cientos de proyectos de software científico.
  • Evaluar el alcance del impacto: determinar qué instalaciones y proyectos de investigación se ven afectados por vulnerabilidades específicas.
  • Priorizar la corrección: centrar las actualizaciones de seguridad en los componentes de software que suponen un mayor riesgo.
  • Coordinar las actualizaciones: gestionar las actualizaciones de software en múltiples proyectos de investigación sin interrumpir el trabajo computacional en curso.

Los marcos de pruebas y validación automatizados proporcionan ventajas de seguridad al tiempo que favorecen la productividad de la investigación, ya que garantizan que las actualizaciones de software no introduzcan regresiones en la precisión científica o el rendimiento computacional. Estos marcos incluyen canales de integración continua que validan tanto las propiedades de seguridad como la corrección científica, pruebas de regresión automatizadas que detectan cambios en los resultados computacionales y comparativas de rendimiento que garantizan que las actualizaciones de seguridad no degraden la eficiencia computacional.

Las estrategias de gestión de contenedores y entornos ayudan a las organizaciones a implementar prácticas SBOM eficaces, ya que proporcionan entornos de software inmutables que están completamente documentados, controlados por versiones y validados en materia de seguridad. Los enfoques de contenedorización, como Singularity y Docker, permiten a las organizaciones crear entornos computacionales reproducibles, al tiempo que mantienen inventarios de software claros para el análisis de seguridad.

¿Cómo aplican los diferentes sectores las normas de seguridad y los requisitos de cumplimiento de HPC?

La implementación de la seguridad de HPC varía considerablemente entre los distintos sectores, ya que cada uno de ellos se enfrenta a requisitos normativos, limitaciones operativas y amenazas distintas que determinan la forma en que las normas del NIST se traducen en medidas de seguridad prácticas.

¿Cuáles son los requisitos del gobierno y la defensa?

Las instalaciones de HPC del gobierno operan bajo estrictos marcos normativos que van mucho más allá de los requisitos básicos de las normas NIST SP 800-223 y SP 800-234. Los laboratorios nacionales del Departamento de Energía deben cumplir con marcos normativos exhaustivos, entre los que se incluyen la norma FIPS 199 para la categorización de la información, la norma NIST SP 800-53 para los controles de seguridad detallados y la norma NIST SP 800-63 para las directrices de identidad digital que rigen la autenticación y la gestión del acceso en todos los recursos computacionales.

Estas instalaciones se enfrentan a prohibiciones absolutas sobre ciertos tipos de procesamiento de información. Los datos clasificados, la información nuclear controlada no clasificada (UCNI), la información sobre propulsión nuclear naval (NNPI) y cualquier dato sobre desarrollo de armas están estrictamente prohibidos en los sistemas HPC no clasificados. Las infracciones acarrean graves consecuencias legales y la revocación de la autorización de seguridad de las instalaciones.

Las normativas de control de exportaciones añaden complejidad operativa, lo que afecta especialmente a la colaboración internacional y a la gestión de equipos. Los investigadores internacionales pueden enfrentarse a restricciones de acceso, mientras que los componentes de hardware y los tokens de seguridad a menudo no pueden cruzar las fronteras nacionales. Estas restricciones afectan significativamente a la colaboración científica y requieren una cuidadosa coordinación con las oficinas de cumplimiento para garantizar que las actividades de investigación legítimas no infrinjan inadvertidamente las normativas.

¿A qué retos se enfrentan las instituciones académicas y de investigación?

Las instituciones académicas se mueven en un panorama fundamentalmente diferente, en el que los principios de la ciencia abierta a menudo entran en conflicto con las restricciones de seguridad necesarias. Las universidades de investigación deben equilibrar los requisitos de transparencia y colaboración con la protección de los datos de investigación sensibles, la propiedad intelectual y la información de los estudiantes.

La gestión de la seguridad en múltiples proyectos de investigación con diferentes niveles de sensibilidad crea una complejidad operativa a la que las empresas comerciales rara vez se enfrentan. Una sola instalación de HPC puede apoyar simultáneamente la investigación básica no clasificada, los proyectos privados patrocinados por la industria y la investigación financiada por el gobierno con restricciones de control de las exportaciones. Cada proyecto requiere diferentes controles de acceso, medidas de protección de datos e informes de cumplimiento.

La colaboración internacional representa tanto una oportunidad como un reto para las instituciones académicas. Si bien la colaboración científica global impulsa la innovación y el descubrimiento, también plantea consideraciones de seguridad en torno al acceso de investigadores extranjeros, el intercambio de datos a través de las fronteras nacionales y el cumplimiento de diversas normativas internacionales. Las universidades deben mantener la apertura de la investigación al tiempo que abordan las preocupaciones legítimas de seguridad sobre la influencia extranjera y la transferencia de tecnología.

¿Cuáles son las consideraciones de seguridad de la HPC comercial?

Los entornos de HPC comercial se enfrentan a retos únicos en torno a la integración en la nube y las implementaciones híbridas. Muchas organizaciones combinan ahora los recursos de HPC locales con capacidades computacionales basadas en la nube, creando arquitecturas de seguridad que abarcan múltiples dominios administrativos y modelos de seguridad. Este enfoque híbrido requiere prestar especial atención a la soberanía de los datos, la gestión de credenciales en todos los entornos y la aplicación coherente de las políticas de seguridad.

La gestión de proveedores en entornos HPC comerciales implica a proveedores de hardware y software especializados que pueden tener una madurez de seguridad limitada en comparación con los proveedores empresariales tradicionales. Las organizaciones deben evaluar las prácticas de seguridad en toda la cadena de suministro, desde los fabricantes de silicio personalizado hasta los desarrolladores de software científico especializado.

Los entornos comerciales multitenant crean retos de seguridad adicionales, ya que los proveedores de HPC en la nube deben aislar las cargas de trabajo de múltiples clientes, al tiempo que mantienen las características de rendimiento que justifican las inversiones en HPC. Esto requiere un sofisticado aislamiento de recursos, segmentación de redes y capacidades de supervisión que van más allá de los enfoques tradicionales de seguridad en la nube.

¿Cómo se integran estas normas con otros marcos de seguridad?

Los retos de integración se hacen evidentes cuando las organizaciones deben alinear los requisitos de la FISMA y el FedRAMP con las implementaciones específicas de HPC. Las agencias federales que utilizan recursos de HPC en la nube deben asegurarse de que los proveedores de nube cumplen los requisitos de autorización del FedRAMP, al tiempo que implementan los controles específicos de HPC descritos en la norma SP 800-234. Esto suele requerir la implementación de controles de seguridad personalizados que satisfagan ambos marcos simultáneamente.

La norma NIST SP 800-171 desempeña un papel fundamental cuando los sistemas HPC procesan información controlada no clasificada (CUI) en entornos de investigación. Las instituciones académicas y las organizaciones de investigación comercial deben implementar los 110 requisitos de seguridad de la norma SP 800-171, al tiempo que mantienen las características de rendimiento y colaboración esenciales para la productividad de la investigación.

El Marco de Ciberseguridad del NIST proporciona un enfoque complementario que muchas organizaciones utilizan junto con las normas específicas de HPC. El enfoque del Marco en las funciones de identificación, protección, detección, respuesta y recuperación ayuda a las organizaciones a desarrollar programas de seguridad integrales que incorporan controles específicos de HPC dentro de estrategias de ciberseguridad más amplias.

La alineación con las normas ISO 27001/27002 en entornos de investigación requiere prestar especial atención a las características operativas únicas de la informática científica. Las organizaciones de investigación que implementan las normas ISO deben adaptar los enfoques tradicionales de gestión de la seguridad de la información para acomodar la naturaleza colaborativa, internacional y sensible al rendimiento de la informática científica, al tiempo que mantienen el enfoque sistemático que requieren los marcos ISO.

¿Por qué son fundamentales la protección y la copia de seguridad de los datos HPC?

La protección de datos HPC va mucho más allá de las estrategias tradicionales de copia de seguridad empresarial, ya que requiere enfoques especializados que aborden los retos únicos de los conjuntos de datos de investigación a escala de petabytes y la infraestructura computacional que sustenta los descubrimientos científicos críticos. La protección eficaz de los datos en entornos HPC debe equilibrar los requisitos de protección integral con las consideraciones de rendimiento que determinan la productividad de la investigación.

¿Qué diferencia fundamentalmente a las copias de seguridad HPC de las copias de seguridad empresariales?

La diferencia de escala entre los entornos HPC y empresariales crea retos de copia de seguridad fundamentalmente diferentes que hacen que las soluciones empresariales tradicionales sean inadecuadas para los requisitos de la computación de alto rendimiento. Mientras que los sistemas empresariales suelen gestionar terabytes de datos, las instalaciones HPC manejan habitualmente conjuntos de datos a escala de petabytes y exabytes que desbordarían la infraestructura de copia de seguridad convencional.

Los volúmenes de datos a escala de petabytes y exabytes cambian las estrategias de copia de seguridad, pasando de ser operaciones rutinarias a convertirse en importantes retos de ingeniería. Un solo conjunto de datos de investigación puede superar la capacidad total de almacenamiento de todos los sistemas de copia de seguridad empresariales, mientras que el tiempo necesario para realizar la copia de seguridad de dichos conjuntos de datos puede abarcar semanas o meses si se utilizan los enfoques tradicionales. Esta escala crea escenarios en los que la copia de seguridad completa del sistema se vuelve matemáticamente imposible, dadas las ventanas de copia de seguridad y los recursos de almacenamiento disponibles.

Las implicaciones en el rendimiento de las operaciones de copia de seguridad representan otra diferencia fundamental con respecto a los entornos empresariales. Los sistemas HPC admiten cargas de trabajo computacionales simultáneas que generan cargas de E/S masivas en los sistemas de almacenamiento compartido. Los enfoques de copia de seguridad tradicionales que escanean los sistemas de archivos o crean copias instantáneas tienden a afectar gravemente a los trabajos computacionales activos, lo que puede invalidar los resultados de la investigación o desperdiciar semanas de tiempo computacional.

Las soluciones de copia de seguridad empresariales tradicionales fallan en entornos HPC porque asumen patrones de datos relativamente estables y volúmenes de datos manejables. Las herramientas de copia de seguridad empresariales suelen esperar bases de datos estructuradas, documentos de oficina y datos de aplicaciones con patrones de crecimiento predecibles. Los datos de investigación HPC suelen consistir en enormes conjuntos de datos científicos, jerarquías de archivos complejas con millones de archivos pequeños y resultados computacionales que pueden generarse más rápido de lo que se tardaría en hacer una copia de seguridad con métodos convencionales.

La norma NIST SP 800-234 aborda estos retos mediante controles de copia de seguridad específicos para HPC, entre los que se incluyen CP-6 (sitio de almacenamiento alternativo), CP-7 (sitio de procesamiento alternativo) y CP-9 (copia de seguridad del sistema de información), con directrices de implementación personalizadas. Estos controles reconocen que las estrategias de copia de seguridad de HPC deben dar prioridad a los componentes críticos del sistema y a los datos de investigación irremplazables, en lugar de intentar una cobertura de copia de seguridad completa que resulta poco práctica a escala HPC.

¿Cuáles son los requisitos únicos de protección de datos de HPC?

La protección de datos de HPC requiere una priorización estratégica que centre los recursos de copia de seguridad disponibles en los componentes de datos más críticos e irremplazables, al tiempo que se acepta que la copia de seguridad completa de todos los datos de investigación puede ser poco práctica o imposible dadas las limitaciones de escala y rendimiento.

Los datos de configuración y los datos críticos del proyecto reciben la máxima prioridad de protección, ya que estos componentes son esenciales para el funcionamiento del sistema y, a menudo, irremplazables. Las configuraciones del sistema, los directorios de inicio de los usuarios que contienen código de investigación y scripts de análisis, y los metadatos de los proyectos deben protegerse de forma exhaustiva, ya que recrear esta información sería extremadamente difícil o imposible.

Los sistemas de archivos paralelos, los búferes de ráfaga y el almacenamiento de campañas requieren estrategias de copia de seguridad diferentes en función de su papel en el flujo de trabajo computacional. Los sistemas de archivos paralelos como Lustre, GPFS (General Parallel File System) e IBM Spectrum Scale admiten cargas de trabajo computacionales activas y requieren enfoques de copia de seguridad que minimicen el impacto en el rendimiento. Los búferes de ráfaga proporcionan un almacenamiento temporal de alta velocidad que puede no requerir una copia de seguridad tradicional, pero que necesita capacidades de recuperación rápida. El almacenamiento de campañas contiene resultados de investigación intermedios que pueden justificar una copia de seguridad selectiva basada en consideraciones de valor de la investigación y reproducibilidad.

Las estrategias de copia de seguridad basadas en zonas se alinean con la arquitectura de cuatro zonas del NIST SP 800-223, reconociendo que las diferentes zonas tienen distintos requisitos de copia de seguridad y limitaciones de rendimiento. Los datos de la zona de acceso pueden recibir copias de seguridad frecuentes debido a su exposición externa, mientras que los datos de la zona de computación pueden centrarse en la recuperación rápida en lugar de en una cobertura de copia de seguridad completa.

Las compensaciones entre la copia de seguridad completa del sistema y la protección selectiva reflejan la realidad práctica de que las instalaciones de HPC deben tomar decisiones estratégicas sobre la protección de datos basadas en el valor de la investigación, el potencial de reproducibilidad y el coste de sustitución. Las organizaciones desarrollan marcos de clasificación de datos que guían las decisiones de copia de seguridad y garantizan que los recursos de protección se centren en los activos de investigación más críticos.

¿Cómo aborda Bacula Enterprise la protección de datos a escala HPC?

Bacula Enterprise representa una de las pocas soluciones de copia de seguridad comerciales diseñadas específicamente para manejar los requisitos de escala y rendimiento de los entornos HPC, proporcionando capacidades que abordan los desafíos únicos de la infraestructura informática científica a escala de petabytes.

La arquitectura de Bacula Enterprise gestiona los requisitos de rendimiento de HPC mediante operaciones de copia de seguridad distribuidas que se escalan simultáneamente en múltiples sistemas y recursos de almacenamiento. Este enfoque distribuido permite realizar operaciones de copia de seguridad que no se atascan en puntos únicos de fallo, al tiempo que mantiene el rendimiento necesario para la protección de datos a escala HPC sin afectar a las cargas de trabajo computacionales activas.

La integración con sistemas de archivos paralelos como Lustre, GPFS e IBM Spectrum Scale requiere enfoques especializados que comprendan la naturaleza distribuida de estos sistemas de almacenamiento. Bacula Enterprise proporciona capacidades de integración nativas que funcionan con los metadatos y los patrones de distribución de datos de los sistemas de archivos paralelos, lo que permite operaciones de copia de seguridad eficientes que aprovechan el paralelismo inherente a la infraestructura de almacenamiento HPC.

La compatibilidad con el modelo de seguridad basado en zonas se ajusta a los requisitos de la norma NIST SP 800-223, ya que proporciona operaciones de copia de seguridad que respetan los límites de seguridad y los controles de acceso definidos en la arquitectura de cuatro zonas. Esto incluye procesos de copia de seguridad que mantienen un aislamiento de seguridad adecuado entre zonas, al tiempo que permiten operaciones eficientes de protección de datos en toda la infraestructura HPC.

Las capacidades clave que hacen que Bacula Enterprise sea adecuado para entornos HPC incluyen:

  • Arquitectura escalable: operaciones distribuidas que se adaptan al crecimiento de la infraestructura HPC.
  • Optimización del rendimiento: operaciones de copia de seguridad diseñadas para minimizar el impacto en las cargas de trabajo computacionales.
  • Integración de sistemas de archivos paralelos: compatibilidad nativa con los sistemas de almacenamiento HPC y sus características únicas.
  • Políticas de retención flexibles: gestión del ciclo de vida de los datos adecuada para datos de investigación con diferentes requisitos de retención.
  • Integración de la seguridad: operaciones de copia de seguridad que mantienen la integridad de la zona de seguridad HPC y los controles de acceso.

¿Qué retos futuros afectarán a la seguridad HPC?

El panorama de la seguridad HPC sigue evolucionando rápidamente, ya que las tecnologías emergentes y las amenazas en constante evolución crean nuevos retos a los que deben adaptarse las normas y prácticas actuales. Las organizaciones que implementan la seguridad HPC en la actualidad deben tener en cuenta no solo los requisitos actuales, sino también prepararse para los avances tecnológicos que remodelarán tanto las capacidades computacionales como el panorama de las amenazas.

¿Cómo afectarán las tecnologías emergentes a la arquitectura?

Las capacidades de computación a exaescala representan el próximo gran salto en el rendimiento de la HPC, ya que aportan una potencia computacional que supera en varios órdenes de magnitud a los sistemas actuales. Estos sistemas contarán con novedosas arquitecturas de aceleradores, tecnologías de red revolucionarias y sistemas de almacenamiento que funcionan a escalas sin precedentes. Las implicaciones en materia de seguridad incluyen superficies de ataque exponencialmente mayores, nuevos tipos de vulnerabilidades de hardware y requisitos de rendimiento que pueden hacer que los enfoques de seguridad actuales resulten inadecuados.

Las tecnologías de computación cuántica tendrán un doble impacto en la seguridad de la HPC: tanto como recursos computacionales que requieren protección como amenazas para los sistemas criptográficos existentes. Los sistemas cuánticos a corto plazo requerirán controles de seguridad especializados para proteger los estados cuánticos y prevenir los ataques de decoherencia, mientras que las capacidades cuánticas a largo plazo necesitarán la migración a algoritmos criptográficos poscuánticos en toda la infraestructura de HPC.

Las tecnologías de red y las soluciones de almacenamiento emergentes, incluidas las interconexiones fotónicas, los sistemas de memoria persistente y las arquitecturas de computación neuromórfica, requerirán actualizaciones de seguridad de los modelos actuales basados en zonas. Estas tecnologías pueden difuminar las fronteras tradicionales entre los componentes de computación, almacenamiento y redes, lo que podría requerir nuevas definiciones de zonas de seguridad que reflejen los nuevos patrones arquitectónicos.

¿Para qué amenazas en evolución deben prepararse las organizaciones?

Los ataques impulsados por la inteligencia artificial y el aprendizaje automático representan una categoría de amenazas emergentes que se dirigen específicamente a los recursos computacionales de HPC. Los adversarios pueden desarrollar ataques que aprovechen la inteligencia artificial para identificar vulnerabilidades en los códigos científicos, optimizar el consumo de recursos para evitar la detección o dirigirse a áreas de investigación específicas para el robo de propiedad intelectual. Estos ataques podrían resultar especialmente peligrosos, ya que pueden adaptarse a las medidas defensivas en tiempo real.

La evolución de la seguridad de la cadena de suministro se vuelve cada vez más crítica a medida que los sistemas HPC incorporan componentes especializados de proveedores globales. Las amenazas futuras pueden dirigirse a diseños de silicio personalizados, firmware integrado en aceleradores o bibliotecas de software especializadas desarrolladas para paradigmas computacionales emergentes. El reto consiste en desarrollar capacidades de verificación para componentes que son cada vez más complejos y especializados.

La integración de la computación periférica ampliará las capacidades de HPC a redes de detección distribuidas, sistemas autónomos y requisitos computacionales en tiempo real que los modelos centralizados actuales no pueden soportar. Esta integración supondrá un reto para la arquitectura tradicional de cuatro zonas, al introducir elementos computacionales distribuidos que requieren controles de seguridad mientras operan en entornos potencialmente hostiles con una supervisión administrativa limitada.

La convergencia de estas tendencias sugiere que la seguridad futura de la HPC requerirá enfoques más dinámicos y adaptables que respondan a las capacidades tecnológicas y al panorama de amenazas en rápida evolución, al tiempo que mantengan las características de rendimiento esenciales para el descubrimiento científico y la innovación.

Conclusión: ¿Cómo es una seguridad HPC eficaz?

La seguridad HPC eficaz surge de organizaciones que logran equilibrar con éxito la productividad de la investigación con una protección integral mediante la implementación de arquitecturas basadas en zonas, controles de seguridad conscientes del rendimiento y modelos de responsabilidad compartida que involucran tanto a los operadores de las instalaciones como a los usuarios de la investigación. Las implementaciones más exitosas tratan la seguridad no como una barrera para el descubrimiento científico, sino como un facilitador que protege los valiosos recursos computacionales y las inversiones en investigación, al tiempo que mantiene las características colaborativas y de alto rendimiento esenciales para el avance del conocimiento científico.

Los factores críticos de éxito para implementar NIST SP 800-223 y SP 800-234 incluyen el compromiso de la organización con el modelo de responsabilidad compartida, la inversión en herramientas y procesos de seguridad diseñados para los requisitos de escala y rendimiento de HPC, y la adaptación continua a las amenazas y capacidades tecnológicas en evolución. Las organizaciones deben reconocer que la seguridad de HPC requiere conocimientos especializados, recursos dedicados y una planificación estratégica a largo plazo que va más allá de los enfoques tradicionales de seguridad de TI empresarial.

El panorama de la seguridad sigue evolucionando con el avance de las capacidades de HPC, las amenazas emergentes y las nuevas tecnologías que remodelarán tanto las arquitecturas computacionales como los requisitos de protección. Las organizaciones exitosas mantienen la flexibilidad en sus implementaciones de seguridad al tiempo que se adhieren a principios arquitectónicos probados, lo que garantiza que su infraestructura de HPC respalde tanto las misiones de investigación actuales como los avances científicos futuros, al tiempo que mantiene una protección adecuada contra las amenazas cibernéticas en constante evolución.

Conclusiones clave

  • La seguridad de la HPC requiere enfoques especializados que difieren fundamentalmente de la seguridad informática empresarial debido a los requisitos de rendimiento únicos y a los modelos operativos centrados en la investigación.
  • Las normas NIST SP 800-223 y SP 800-234 proporcionan una orientación completa a través de una arquitectura basada en zonas y controles de seguridad personalizados que equilibran la protección con el rendimiento computacional.
  • El éxito de la implementación depende de modelos de responsabilidad compartida en los que los operadores de las instalaciones gestionan las protecciones de la infraestructura, mientras que los usuarios de la investigación se encargan de las prácticas de seguridad a nivel de aplicación.
  • La seguridad de la cadena de suministro de software presenta retos continuos debido a las complejas dependencias, los diversos sistemas de flujo de trabajo y el desarrollo colaborativo, que requieren una gestión continua de las vulnerabilidades.
  • Las estrategias de protección de datos deben adaptarse a la escala de la HPC utilizando enfoques de copia de seguridad selectivos y herramientas especializadas diseñadas para conjuntos de datos a escala de petabytes sin afectar al rendimiento.
  • La seguridad futura de la HPC requerirá enfoques adaptativos que respondan a las tecnologías emergentes, como la computación a exaescala, al tiempo que aborden las amenazas en constante evolución, incluidos los ataques impulsados por la inteligencia artificial.
Sobre el autor
Rob Morrison
Rob Morrison es el director de marketing de Bacula Systems. Comenzó su carrera de marketing de TI con Silicon Graphics en Suiza, desempeñando con fuerza varios puestos de gestión de marketing durante casi 10 años. En los siguientes 10 años, Rob también ocupó varios puestos de gestión de marketing en JBoss, Red Hat y Pentaho, asegurando el crecimiento de la cuota de mercado de estas conocidas empresas. Se graduó en la Universidad de Plymouth y tiene una licenciatura en Medios Digitales y Comunicaciones, y completó un programa de estudios en el extranjero.
Deja un comentario

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *