Максимизируйте эффективность AI-фабрик для увеличения дохода

В эпоху искусственного интеллекта энергия становится ключевым ограничивающим фактором, и каждая AI-фабрика функционирует в рамках жесткого лимита. Это делает производительность на ватт — скорость, с которой энергия преобразуется в доходную интеллектуальную работу — определяющим показателем для современной AI-инфраструктуры. AI-центры обработки данных теперь функционируют как фабрики токенов, которые напрямую связаны с энергетической экосистемой, где доступ к земле, энергии и инфраструктуре определяет развертывание, а эффективность — выход. Увеличение дохода в рамках фиксированного энергетического лимита полностью зависит от максимизации интеллекта на ватт по всей AI-инфраструктуре и экосистеме из пяти слоев AI. В этой статье рассматривается, как архитектуры, системы и программное обеспечение AI-фабрик от NVIDIA максимизируют производительность на ватт на каждом уровне стека, а также как эти достижения в эффективности переводятся в более высокий объем токенов и доход на мегаватт.

Архитектуры и платформы NVIDIA разработаны для увеличения количества производимого интеллекта на ватт с каждым новым поколением. За шесть поколений архитектур NVIDIA удалось увеличить пропускную способность вывода на мегаватт в 1,000,000 раз. Для сравнения, если бы средняя топливная эффективность автомобиля улучшалась так же быстро, как чипы за аналогичный период, одного галлона бензина хватило бы для поездки на Луну и обратно. NVIDIA Hopper представила множество архитектурных нововведений, которые значительно повысили энергетическую эффективность по сравнению с предыдущим поколением. Ключом к этим достижениям является Hopper Transformer Engine, который сочетает технологии четвертого поколения Tensor Core с ускорением FP8 и программным обеспечением, что позволяет значительно увеличить производительность на ватт. Архитектура NVIDIA Blackwell продвинула эту основу, улучшив высокоскоростную память (HBM), переключатели и ткань NVIDIA NVLink, а также Tensor Cores с поддержкой NVFP4, увеличив пропускную способность на ватт.

Недавние данные SemiAnalysis InferenceX показывают, что программные оптимизации NVIDIA и системы NVIDIA Blackwell Ultra GB300 NVL72 обеспечивают до 50 раз более высокую пропускную способность на мегаватт и на 35 раз меньшую стоимость токенов, чем Hopper для DeepSeek-R1. Платформа NVIDIA Vera Rubin дополнительно повышает эффективность. GPU Rubin, CPU Vera, NVLink 6 и термальные решения полного стояка разработаны как единая платформа AI-фабрики. Примечательно, что CPU NVIDIA Vera обеспечивает в 2 раза большую эффективность и на 50% более высокую производительность по сравнению с традиционными CPU. Этот комплексный подход позволяет достичь до 10 раз более высокой пропускной способности вывода на мегаватт и примерно в 10 раз меньшей стоимости токенов по сравнению с Blackwell для AI-фабрик Kimi K2 (32K/8K).

Эти достижения в эффективности очевидны в AI-рабочих нагрузках и также отражаются в более широких показателях вычислительной производительности. Сообщество HPC и суперкомпьютеров использует бенчмарк Green500 для измерения эффективности высокой точности (FP64), и системы суперкомпьютеров NVIDIA занимают лидирующие позиции, девять из десяти систем ускоряются технологиями NVIDIA. Достижение таких значительных улучшений в эффективности требует проектирования этой эффективности на каждом уровне стека. NVIDIA рассматривает это как задачу экстремального совместного проектирования — оптимизируя от проектирования и производства чипов, через системные инновации, такие как жидкостное охлаждение, до оркестровки AI-фабрики.

Эффективность начинается еще до того, как кремний попадает на AI-фабрику. NVIDIA оптимизирует производственный процесс, чтобы поставлять более энергоэффективные чипы быстрее. Например, библиотека NVIDIA cuLitho для ускоренной вычислительной литографии переосмысляет основные примитивы вычислительной литографии на GPU. Она ускоряет синтез масок до 70 раз и позволяет нескольким сотням систем класса NVIDIA DGX заменить десятки тысяч серверов на CPU. На практике это означает переход от двухнедельных циклов фотомасок к ночным запускам, используя около одной девятой энергии и одну восьмую физического пространства, при этом позволяя использовать такие передовые техники, как обратная литография и криволинейные маски.

Максимизируйте эффективность AI-фабрик для увеличения дохода

Похожие статьи

Пять архитектур вычислений для ИИ, которые должен знать каждый инженер

Google и Intel углубляют партнерство в области ИИ-инфраструктуры

Эффективное управление ИИ-нагрузками на суперкомпьютерах