Достижение микросекундной латентности для финансовых рынков
В алгоритмической торговле критически важно сокращать время реакции на рыночные события. Для того чтобы успевать за высокоскоростными электронными рынками, компании, чувствительные к латентности, часто используют специализированное оборудование, такое как FPGA и ASIC. Однако с ростом эффективности рынков трейдеры все больше полагаются на усовершенствованные модели, такие как глубокие нейронные сети, для повышения прибыльности. Поскольку внедрение этих сложных моделей на низкоуровневом оборудовании требует значительных инвестиций, универсальные GPU предлагают практичную и экономически эффективную альтернативу.
Суперчип NVIDIA GH200 Grace Hopper в сервере Supermicro ARS-111GL-NHR достиг латентности в единичные микросекунды в бенчмарке STAC-ML Markets (Inference), предоставляя производительность, сопоставимую или даже лучшую, чем специализированные аппаратные системы. В этой статье подробно рассматриваются эти рекордные результаты и предоставляются решения, необходимые для низколатентного вывода на GPU.
Глубокие нейронные сети с памятью долгосрочной и краткосрочной (LSTM) широко используются для прогнозирования временных рядов на финансовых рынках. Бенчмарк STAC-ML (Markets) Inference измеряет латентность модели LSTM — время между получением нового входа и генерацией выхода. Он включает три модели с возрастающей сложностью, где LSTM_B примерно в шесть раз сложнее LSTM_A, а LSTM_C примерно в 200 раз сложнее LSTM_A.
Бенчмарк STAC-ML стал важным инструментом для финансовых учреждений, использующих машинное обучение в торговле. Он строго измеряет скорость и надежность технологической платформы при запуске моделей на реальных рыночных данных в условиях, приближенных к производственным. Стандартизируя ключевые метрики, такие как латентность, пропускная способность и эффективность для моделей LSTM и других временных рядов, STAC-ML позволяет банкам, хедж-фондам и маркет-мейкерам проводить объективные сравнения конкурирующих аппаратных и программных решений перед развертыванием.
Результаты STAC-ML критически важны для торговых столов, расположенных в совместных дата-центрах, где выигрыш или проигрыш заказа может решаться за микросекунды. Они подтверждают, что платформа может соответствовать строгим требованиям латентности для требовательных случаев использования, таких как высокочастотный маркет-мейкинг, краткосрочное прогнозирование цен и автоматическое хеджирование. Поскольку бенчмарк разрабатывается и управляется практиками из ведущих финансовых компаний, его оценки имеют значительный вес в процессе выбора технологий.
NVIDIA продемонстрировала следующие латентности (99-й процентиль) на сервере Supermicro ARS-111GL-NHR с одним суперчипом NVIDIA GH200 Grace Hopper в FP16 для STAC-ML Tacana. Латентность LSTM_A составила 4.70 микросекунд с одной моделью, 4.67 микросекунд с двумя, 4.61 микросекунд с четырьмя и 4.67 микросекунд с восемью моделями. Латентность LSTM_B составила 7.10 микросекунд с одной моделью, 6.88 микросекунд с двумя, 7.10 микросекунд с четырьмя моделями. Латентность LSTM_C составила 15.80 микросекунд с одной моделью. Наблюдаемые латентности остаются высоко стабильными при масштабировании от 1 до 4-8 экземпляров моделей, что подчеркивает важность зеленых контекстов для поддержания предсказуемой производительности.
NVIDIA ускоряет Gemma 4 для локального агентного ИИ
Запускаем Gemma 4: новые возможности для локального ИИ
Похожие статьи
Исследователи Meta представили гиперагенты для самообучающегося ИИ
Исследователи Meta представили гиперагенты, которые улучшают ИИ для не программируемых задач.
OpenAI обновляет SDK для агентов, чтобы помочь компаниям создавать более безопасные решения
OpenAI обновила SDK для агентов, добавив новые функции для бизнеса.
Оптимизация использования GPU для языковых моделей и снижение затрат
Оптимизация GPU для языковых моделей снижает затраты и повышает эффективность.