Timothy Morano
10 Nov, 2025 06:48
El GB200 NVL72 de NVIDIA introduce ComputeDomains para una gestión eficiente de cargas de trabajo de IA en Kubernetes, facilitando una conectividad GPU segura y de alto ancho de banda entre nodos.
NVIDIA ha revelado un avance significativo en infraestructura de IA con la introducción del GB200 NVL72, que mejora la implementación y escalabilidad de cargas de trabajo de IA en Kubernetes. Según NVIDIA, esta innovación redefinirá cómo se entrenan los modelos de lenguaje grandes y cómo se gestionan las cargas de trabajo de inferencia escalables y de baja latencia.
ComputeDomains: Una Nueva Abstracción
El núcleo de este desarrollo reside en una nueva abstracción de Kubernetes llamada ComputeDomains. Esta abstracción está diseñada para simplificar la complejidad de garantizar operaciones seguras de memoria GPU a GPU entre nodos utilizando un tejido NVLink multi-nodo. Los ComputeDomains están integrados en el controlador NVIDIA DRA para GPUs, conectando construcciones GPU de bajo nivel como NVIDIA NVLink e IMEX con conceptos nativos de programación de Kubernetes.
Los ComputeDomains abordan las limitaciones de las configuraciones NVLink estáticas definidas manualmente mediante la creación y gestión dinámica de dominios IMEX a medida que se programan las cargas de trabajo. Esta flexibilidad mejora el aislamiento de seguridad, la tolerancia a fallos y la eficiencia de costos, convirtiéndola en una solución robusta para la infraestructura moderna de IA.
Avances en el Diseño de Sistemas GPU
La evolución de la computación GPU de un solo nodo a múltiples nodos ha sido fundamental. Los sistemas NVIDIA DGX anteriores estaban limitados al escalado intra-nodo. Sin embargo, con el Multi-Node NVLink (MNNVL) de NVIDIA, las GPUs en diferentes servidores pueden comunicarse con el ancho de banda completo de NVLink, transformando un rack entero en un tejido GPU unificado. Esto permite un escalado de rendimiento sin problemas y forma la base para el entrenamiento distribuido y la inferencia ultrarrápidos.
Los ComputeDomains aprovechan este avance proporcionando una forma nativa de Kubernetes para soportar NVLink multi-nodo, formando ya la base para varios componentes de nivel superior en la pila de Kubernetes de NVIDIA.
Implementación y Beneficios
El controlador NVIDIA DRA para GPUs ahora ofrece ComputeDomains, que gestionan dinámicamente los dominios IMEX a medida que las cargas de trabajo se programan y completan. Esta gestión dinámica asegura que cada carga de trabajo obtenga su propio dominio IMEX aislado, facilitando la comunicación segura GPU a GPU mientras mantiene una alta utilización de recursos.
Los ComputeDomains permiten una integración y gestión sin problemas entre nodos, ajustándose dinámicamente a medida que las cargas de trabajo crecen o disminuyen. Esto no solo mejora la seguridad y el aislamiento de fallos, sino que también maximiza la utilización de recursos, particularmente en entornos multi-inquilino.
Perspectivas Futuras
La última versión del controlador NVIDIA DRA para GPUs, versión 25.8.0, incluye mejoras significativas para ComputeDomains. Estas mejoras tienen como objetivo proporcionar una programación más flexible y facilidad de uso, abordando limitaciones actuales como las restricciones de un solo pod por nodo y aumentando la utilización de recursos.
A medida que NVIDIA continúa ampliando los límites de la infraestructura de IA, los ComputeDomains están posicionados para convertirse en una piedra angular para la orquestación de IA escalable y consciente de la topología en plataformas como el GB200 NVL72. Estas innovaciones prometen simplificar el entrenamiento e inferencia multi-nodo, haciendo que las cargas de trabajo distribuidas sean más simples de implementar y gestionar en Kubernetes.
Fuente de la imagen: Shutterstock
Source: https://blockchain.news/news/kubernetes-embraces-multi-node-nvlink-ai-workloads








