Together AI ускоряет обучение на 90% с использованием NVIDIA Blackwell
Сегодня мы объявляем о немедленном доступе к кластеру GPU Together, ускоренному платформой NVIDIA Blackwell, а также о сопутствующем стеке ускорения ИИ, оптимизированном для последней архитектуры GPU. Кластеры GPU Together, оснащенные NVIDIA HGX B200, обеспечивают беспрецедентную производительность: на 90% быстрее обучения по сравнению с NVIDIA HGX H100, достигая 15,200 токенов в секунду на узел при обучении модели с 70 миллиардами параметров.
Наша исследовательская команда добилась этих невероятных ускорений, используя передовые функции NVIDIA Blackwell с помощью открытого фреймворка ThunderKittens. Мы разработали пользовательские ядра FP8, которые полностью используют 5-е поколение тензорных ядер NVIDIA и выделенную память на чипе, чтобы создать ядра внимания, работающие в 1.8 раза быстрее, чем FlashAttention-3.
В рамках эксклюзивной программы запуска мы предлагаем восьми передовым ИИ-командам возможность протестировать выделенные узлы HGX B200 и работать напрямую с инженерами NVIDIA и исследователями Together AI для ускорения их рабочих нагрузок ИИ. Это сотрудничество объединяет опыт оптимизации ядер Together AI с последними инновациями платформы ускоренных вычислений NVIDIA, устанавливая новые эталоны для эффективности обучения и вывода ИИ.
Мы развертываем десятки тысяч серверов NVIDIA HGX B200 и решений GB200 NVL72 с сетями NVIDIA Quantum-2 InfiniBand, включая кластер GPU GB200 NVL72 на 36K+, о котором мы ранее объявили. Все кластеры GPU Together оснащены высокопроизводительным NVLink от NVIDIA внутри узла и сетями NVIDIA Quantum-2 InfiniBand между узлами, обеспечивая масштаб и производительность, необходимые для создания и развертывания следующего поколения моделей и агентов ИИ.
Наша команда стремится работать бок о бок с вашей, прокладывая путь в будущее ИИ. Together AI оптимизирует каждый уровень стека ИИ, чтобы полностью использовать достижения в архитектуре GPU, таких как NVIDIA Blackwell. Мы пишем пользовательские ядра, чтобы максимизировать как скорость, так и масштабируемость, и особенно рады новому формату микромасштабирования данных для ускорения вывода модели и новым тензорным ядрам для оптимизации обучения.
Ускорьте внимание с FlashAttention-3: новые возможности и производительность
Together AI улучшает сервис дообучения с поддержкой инструментов
Похожие статьи
OpenAI обновляет Codex, добавляя доступ ко всем приложениям на компьютере
OpenAI обновляет Codex, добавляя доступ ко всем приложениям на компьютере и новые функции.
Автоматизированные проверки в Amazon Bedrock обеспечивают соответствие ИИ
Автоматизированные проверки в Amazon Bedrock обеспечивают формальную валидацию ИИ для соблюдения норм.
Эффективная настройка текст-в-SQL с Amazon Nova Micro и Bedrock
Amazon Nova Micro и Bedrock предлагают эффективные решения для текст-в-SQL.