Эффективное управление ИИ-нагрузками на суперкомпьютерах

1 просмотров Источник
Эффективное управление ИИ-нагрузками на суперкомпьютерах

Системы NVIDIA GB200 NVL72 и NVIDIA GB300 NVL72, основанные на архитектуре NVIDIA Blackwell, представляют собой суперкомпьютеры на уровне стоек. Они сконструированы с 18 тесно связанными вычислительными отсеками, массивными GPU-структурами и высокоскоростными сетями, упакованными в единый блок. Для архитекторов ИИ и операторов HPC-платформ задача заключается не только в установке оборудования, но и в преобразовании инфраструктуры в безопасные, высокопроизводительные и удобные ресурсы для конечных пользователей. Несоответствие между топологией оборудования на уровне стоек и абстракциями планировщика создает большую часть операционной сложности. Если это не решить, планировщики работают с плоским пулом GPU и узлов, игнорируя иерархическую и чувствительную к топологии конструкцию системы.

Именно этот разрыв призван преодолеть проверенный программный стек, такой как NVIDIA Mission Control. Он предоставляет контрольные плоскости на уровне стоек для систем NVIDIA Grace Blackwell NVL72. С учетом понимания доменов NVIDIA NVLink и NVIDIA IMEX, он интегрируется с платформами управления нагрузкой, такими как Slurm и NVIDIA Run:ai. Эти возможности также будут поддерживаться для платформы NVIDIA Vera Rubin, включая NVIDIA Rubin NVL8. В данной статье демонстрируется, как Mission Control, Slurm и NVIDIA Run:ai превращают концепции передовой архитектуры GPU, такие как NVLink и IMEX-домены, в оперативную фабрику ИИ, которая масштабируема, поддается планированию и проста в управлении.

Основная проблема заключается в том, как топология на уровне стоек сочетается с планированием ИИ-нагрузок. На физическом уровне системы GB300 NVL72 и GB200 NVL72 являются мощными и сложными системами. Каждая из них предоставляет плотную GPU-структуру, соединенную переключателями NVLink, поддерживает NVIDIA Multi-Node NVLink (MNNVL) внутри стойки и включает вычислительные отсеки с поддержкой IMEX, что позволяет использовать общую память GPU между узлами. Однако планировщики не работают на уровне переключателей и структур. Они требуют предсказуемого распределения ресурсов GPU, четких изоляционных границ для защиты нагрузок друг от друга и стабильных характеристик производительности, соответствующих ожиданиям пользователей.

Под капотом топология NVLink стойки Grace Blackwell NVL72 отражается в программном обеспечении через пару идентификаторов на уровне системы: UUID кластера и ID клик. Эти идентификаторы кодируют положение GPU в структуре NVLink — по доменам или стойкам — так, чтобы системное программное обеспечение, планировщики и инструменты более высокого уровня могли с ними работать. Сопоставление довольно простое: UUID кластера соответствует домену NVLink, а ID клик соответствует разделению NVLink. Общий UUID кластера означает, что системы и их GPU принадлежат одному и тому же домену NVLink и соединены общей структурой NVLink. На Grace Blackwell NVL72 этот UUID остается постоянным для всей стойки: все GPU в одной стойке NVL72 сообщают один и тот же UUID кластера.

ID клик обеспечивает более тонкое различие. GPU, которые имеют общий ID клик, принадлежат к одному и тому же разделению NVLink в этом домене. Когда стойка делится на несколько разделений NVLink, UUID кластера остается прежним — поскольку GPU находятся в одном физическом домене NVLink — но ID клик различаются, чтобы отразить логическую сегментацию структуры. С операционной точки зрения это различие имеет значение: UUID кластера отвечает на вопрос, какие GPU физически делят стойку и могут взаимодействовать через NVLink, а ID клик показывает, какие GPU делят разделение NVLink и предназначены для совместной работы для данной нагрузки или уровня сервиса.

Эти идентификаторы составляют связующее звено между топологией оборудования и логикой планирования. Они позволяют таким платформам, как Slurm, Kubernetes и NVIDIA Run:ai, согласовывать размещение заданий, изоляцию и гарантии производительности с фактической структурой NVLink, не раскрывая эту сложность конечным пользователям. Когда вы начинаете запускать многонодовые нагрузки на системах NVL72 на базе Blackwell, размещение становится таким же важным, как и количество GPU. Работа на 16 GPU, распределенная по неправильным узлам, может вести себя совершенно иначе, чем та же работа, ограниченная одной структурой NVLink. Именно здесь плагин топологии/блока Slurm становится необходимым, позволяя Slurm распознавать, что не все узлы равны.

Похожие статьи