Ускорьте внимание с FlashAttention-3: новые возможности и производительность
FlashAttention-3 значительно ускоряет внимание в моделях ИИ, достигая 1.2 PFLOPS с FP8 и улучшая производительность GPU.
·
2 просмотров