Ускорьте производство токенов в AI-фабриках с NVIDIA Mission Control

3 просмотров Источник
Ускорьте производство токенов в AI-фабриках с NVIDIA Mission Control

В современных AI-фабриках производительность является не теоретическим понятием, а экономическим, конкурентным и экзистенциальным фактором. Снижение доступного времени работы GPU всего на 1% может привести к потере миллионов токенов в час. Минуты перегрузки могут перерасти в часы восстановления, а переизбыток мощности на уровне стойки может привести к потере энергии и снижению токенов на ватт, незаметно подрывая выход фабрики в масштабах. По мере масштабирования AI-фабрик до тысяч GPU, работающих с разнообразными критически важными нагрузками, стоимость непредсказуемых перегрузок, ограничений по мощности, задержек и ограниченной видимости возрастает экспоненциально. Команды операций и администраторы нуждаются не только в панелях мониторинга, но и в гибкости и предвидении.

NVIDIA представила NVIDIA Mission Control как интегрированный программный стек для AI-фабрик, основанный на референсных архитектурах NVIDIA, формализуя лучшие практики NVIDIA с единой управляющей плоскостью. Версия Mission Control 3.0 расширяет возможности, вводя архитектурную гибкость, изоляцию для нескольких организаций, интеллектуальную оркестрацию мощности и предсказательный AIOps для обнаружения аномалий в операциях и максимизации производства токенов. Mission Control 3.0 предоставляет новую гибкость, вводя многослойную, управляемую API архитектуру, построенную на модульных сервисах, что улучшает ранее жестко связанные стеки, требующие синхронизированных релизов и сложной валидации на различных аппаратных платформах.

Новые компоненты, такие как автоматизированное управление сетью и сервис управления мощностью, предоставляющий новый уровень управления для оптимизации мощности, дополнительно расширяют стек Mission Control, добавляя дополнительные модульные сервисы в единую управляющую плоскость. Сочетание открытых компонентов с модульным дизайном позволяет быстро поддерживать новейшее оборудование NVIDIA, позволяя поставщикам систем OEM и независимым разработчикам программного обеспечения (ISV) интегрировать возможности Mission Control непосредственно в свои экосистемы. Это создает ситуацию, когда предприятия получают больше гибкости и выбора в своих программных стеках, упрощая настройку решений для удовлетворения уникальных бизнес- и технологических задач.

Одной из технологических проблем, с которыми сталкиваются многие организации, является поддержка изоляции для нескольких организаций в централизованной AI-фабрике. По мере того как AI-фабрики эволюционируют от исследований и экспериментов к производственным, критически важным средам, совместная инфраструктура между несколькими командами требует сильной организационной изоляции и безопасной многопользовательской среды. Улучшенная управляющая плоскость Mission Control трансформирует стек управления AI-фабрикой в программно-определяемую, виртуализированную архитектуру. Сервисы Mission Control отделены от физических управляющих узлов и развертываются на платформах, основанных на виртуальных машинах (KVM), с использованием автоматизации, предоставляемой NVIDIA.

Управление мощностью в предыдущих версиях Mission Control помогало организациям ответственно управлять сложными аспектами мощности, но оно было реактивным. Работы планировались в первую очередь, а политики мощности применялись позже. Хотя это было огромным шагом к балансировке мощности и производительности, необходимы были более динамичные решения для управления этим на большом масштабе, особенно в смешанных средах Slurm и Kubernetes. Здесь Mission Control эволюционирует с версией 3.0. Включив сервис управления мощностью непосредственно в Mission Control, мощность становится первоклассным элементом планирования, который помогает организациям оптимизировать производство токенов с помощью своих политик мощности.

Похожие статьи