Liquid AI представила LFM2.5-350M: компактная модель с 350M параметрами

Источник
Liquid AI представила LFM2.5-350M: компактная модель с 350M параметрами

В современном мире генеративного ИИ закон «масштабирования» обычно утверждает, что большее количество параметров соответствует большему интеллекту. Однако Liquid AI бросает вызов этой конвенции с выходом модели LFM2.5-350M. Эта модель является техническим кейсом по плотности интеллекта с дополнительным предобучением (с 10 триллионов до 28 триллионов токенов) и крупномасштабным обучением с подкреплением.

Значение LFM2.5-350M заключается в её архитектуре и эффективности обучения. В то время как большинство ИИ-компаний сосредоточено на передовых моделях, Liquid AI нацелена на «крайние устройства» — устройства с ограниченной памятью и вычислительными ресурсами. Модель с 350 миллионами параметров может превосходить модели, имеющие более чем в два раза больше параметров, по ряду оценочных показателей.

Ключевым техническим отличием LFM2.5-350M является её отказ от чистой архитектуры трансформеров. Она использует гибридную структуру, основанную на линейных системах с переменным входом (LIV). Традиционные трансформеры полностью полагаются на механизмы самовнимания, которые страдают от проблем с квадратичным масштабированием: по мере увеличения контекстного окна увеличиваются и требования к памяти и вычислениям для кеша ключ-значение. Liquid AI решает эту проблему, используя гибридную архитектуру.

Модель LFM2.5-350M была предобучена на 28 триллионах токенов с крайне высоким соотношением обучаемых параметров. Это обеспечивает максимальную эффективность использования ограниченного количества параметров, что приводит к высокой «плотности интеллекта». Модель ориентирована на выполнение задач, требующих высокой скорости, а не на общее рассуждение, что подтверждается её высокими показателями в тестах на следование инструкциям.

Среди основных характеристик модели можно выделить её способность к высокоскоростной обработке данных и низкие требования к памяти, что делает её подходящей для локального развертывания. Модель достигает производительности до 40,4 тысячи токенов в секунду на одном GPU NVIDIA H100, что делает её идеальной для извлечения данных в реальном времени. Однако разработчики предупреждают, что LFM2.5-350M не рекомендуется для сложного программирования, математики или творческого письма.

Похожие статьи