Запускайте мгновенные кластеры NVIDIA для AI без задержек

Создание многоузловых кластеров GPU традиционно было трудоемким процессом, требующим много времени и усилий от инженеров и исследователей в области ИИ. Сегодня мы рады объявить о запуске мгновенных кластеров Together, которые предлагают опыт разработки с акцентом на API. Мгновенные кластеры обеспечивают автоматизацию самообслуживания для ИИ-инфраструктуры — от одноузловых кластеров с 8 GPU до крупных многоузловых кластеров с сотнями взаимосвязанных GPU, поддерживающих архитектуры NVIDIA Hopper и NVIDIA Blackwell.

Компании, работающие в области ИИ, теперь могут быстро управлять внезапным спросом, будь то запуск обучения или увеличение трафика при выводе, добавляя мощности и автоматически подключая кластер с правильной оркестрацией (K8s или Slurm) и сетевым подключением. Мгновенные кластеры можно настроить за считанные минуты, без долгих циклов закупок или ручных согласований, и они предварительно сконфигурированы для низкой задержки вывода и высокопроизводительного распределенного обучения.

Разработчики ожидают, что облачные решения будут ориентированы на API, самообслуживание и предсказуемость. Ранее тесно связанные кластеры GPU не соответствовали этим ожиданиям — команды вручную собирали драйверы, планировщики и сетевые компоненты. Мгновенные кластеры Together делают инфраструктуру GPU такой же простой в использовании, как и остальная часть облака: автоматизированной от запроса до выполнения, последовательной в разных средах и спроектированной для масштабирования от одного узла до крупных многоузловых кластеров без изменения рабочего процесса.

Кластеры поставляются с предустановленными компонентами, которые команды обычно тратят дни на настройку самостоятельно. Это включает GPU Operator для управления драйверами и программным обеспечением, Ingress controller для обработки трафика, NVIDIA Network Operator для высокопроизводительной сети и Cert Manager для безопасных сертификатов. Эти и другие важные элементы уже установлены, так что ваш кластер готов к производству прямо из коробки.

Обучение на большом масштабе требует правильного соединения и оркестрации. Кластеры соединены с помощью неблокирующей вычислительной сети NVIDIA Quantum‑2 InfiniBand, обеспечивая сверхнизкую задержку и высокую пропускную способность для многоузлового обучения. Используйте Kubernetes или Slurm и поддерживайте воспроизводимость сред с фиксированными версиями драйверов и CUDA. Когда нагрузка увеличивается, службы должны быстро адаптироваться, а не перерабатываться. Мгновенные кластеры Together позволяют быстро добавлять мощность для вывода и поддерживать SLA по задержке.

С запуском мгновенных кластеров мы внедрили режим надежности, чтобы кластеры были стабильными до начала работы и оставались таковыми в течение всего времени. Каждый узел проходит тестирование, а соединения между узлами проверяются. Кластеры постоянно мониторятся, что позволяет быстро выявлять и устранять проблемы. Together AI отличается от других облачных провайдеров тем, что значительная часть нашей команды — это исследователи в области ИИ, которые активно используют и вносят свой вклад в платформу.

Запускайте мгновенные кластеры NVIDIA для AI без задержек

Похожие статьи

Adobe Premiere анонсирует новый режим цветокоррекции с ускорением на NVIDIA GPUs

NVIDIA NVbandwidth: инструмент для оценки производительности GPU

Оптимизация использования GPU для эффективного обучения моделей