Together AI ускоряет обучение на 90% с использованием NVIDIA Blackwell

3 просмотров Источник
Together AI ускоряет обучение на 90% с использованием NVIDIA Blackwell

Сегодня мы объявляем о немедленном доступе к кластеру GPU Together, ускоренному платформой NVIDIA Blackwell, а также о сопутствующем стеке ускорения ИИ, оптимизированном для последней архитектуры GPU. Кластеры GPU Together, оснащенные NVIDIA HGX B200, обеспечивают беспрецедентную производительность: на 90% быстрее обучения по сравнению с NVIDIA HGX H100, достигая 15,200 токенов в секунду на узел при обучении модели с 70 миллиардами параметров.

Наша исследовательская команда добилась этих невероятных ускорений, используя передовые функции NVIDIA Blackwell с помощью открытого фреймворка ThunderKittens. Мы разработали пользовательские ядра FP8, которые полностью используют 5-е поколение тензорных ядер NVIDIA и выделенную память на чипе, чтобы создать ядра внимания, работающие в 1.8 раза быстрее, чем FlashAttention-3.

В рамках эксклюзивной программы запуска мы предлагаем восьми передовым ИИ-командам возможность протестировать выделенные узлы HGX B200 и работать напрямую с инженерами NVIDIA и исследователями Together AI для ускорения их рабочих нагрузок ИИ. Это сотрудничество объединяет опыт оптимизации ядер Together AI с последними инновациями платформы ускоренных вычислений NVIDIA, устанавливая новые эталоны для эффективности обучения и вывода ИИ.

Мы развертываем десятки тысяч серверов NVIDIA HGX B200 и решений GB200 NVL72 с сетями NVIDIA Quantum-2 InfiniBand, включая кластер GPU GB200 NVL72 на 36K+, о котором мы ранее объявили. Все кластеры GPU Together оснащены высокопроизводительным NVLink от NVIDIA внутри узла и сетями NVIDIA Quantum-2 InfiniBand между узлами, обеспечивая масштаб и производительность, необходимые для создания и развертывания следующего поколения моделей и агентов ИИ.

Наша команда стремится работать бок о бок с вашей, прокладывая путь в будущее ИИ. Together AI оптимизирует каждый уровень стека ИИ, чтобы полностью использовать достижения в архитектуре GPU, таких как NVIDIA Blackwell. Мы пишем пользовательские ядра, чтобы максимизировать как скорость, так и масштабируемость, и особенно рады новому формату микромасштабирования данных для ускорения вывода модели и новым тензорным ядрам для оптимизации обучения.

Похожие статьи