производительность

FlashAttention-4 оптимизирует производительность с помощью нового алгоритма и дизайна ядра.

02.04.2026

Together AI запускает ATLAS — адаптивную систему спекулятивного обучения для ускорения языковых моделей.

02.04.2026 · 2 просмотров

FlashAttention-3 значительно ускоряет внимание в моделях ИИ, достигая 1.2 PFLOPS с FP8 и улучшая производительность GPU.

02.04.2026

Кэширование torch.compile ускоряет загрузку моделей в PyTorch в 2-3 раза.

02.04.2026 · 1 просмотров

Google представила Gemini 3.1 Flash-Lite, быструю и экономичную модель для разработчиков и предприятий.

01.04.2026 · 32 просмотров

#производительность (5)