Qwen команда представила Qwen3.6-35B-A3B: новый открытый AI-модель

2 просмотров Источник
Qwen команда представила Qwen3.6-35B-A3B: новый открытый AI-модель

На рынке открытых AI-моделей появилось новое интересное решение. Команда Qwen компании Alibaba выпустила Qwen3.6-35B-A3B, первую модель с открытыми весами из поколения Qwen3.6, которая демонстрирует, что эффективность параметров важнее, чем просто размер модели. Эта модель содержит 35 миллиардов параметров, но активирует только 3 миллиарда во время вывода, что позволяет достигать производительности, сопоставимой с плотными моделями, в десять раз превышающими её активный размер.

Что такое модель Sparse MoE и почему это важно? Модель Mixture of Experts (MoE) не использует все свои параметры при каждом проходе. Вместо этого она направляет каждый входной токен через небольшую подгруппу специализированных подсетей, называемых «экспертами». Остальные параметры остаются неактивными. Это позволяет иметь огромное общее количество параметров, сохраняя при этом вычислительные затраты на вывод пропорциональными только активному количеству параметров.

Qwen3.6-35B-A3B является причинной языковой моделью с визуальным кодировщиком, обученной через этапы предварительного и последующего обучения. Её MoE-слой содержит 256 экспертов, из которых активируются 8 специализированных и 1 общий на токен. Архитектура включает в себя 10 блоков, каждый из которых состоит из 3 экземпляров (Gated DeltaNet → MoE) и 1 экземпляра (Gated Attention → MoE). В общей сложности 40 слоев, где подсистемы Gated DeltaNet обрабатывают линейное внимание, что является более дешевым вариантом обычного самовнимания.

Модель поддерживает нативную длину контекста в 262,144 токенов, которую можно увеличить до 1,010,000 токенов с использованием YaRN (Yet another RoPE extensioN). Важным аспектом является Agentic Coding, который демонстрирует серьезные результаты. На SWE-bench Verified, каноническом бенчмарке для решения реальных задач, Qwen3.6-35B-A3B набирает 73.4, что выше, чем у Qwen3.5-35B-A3B (70.0) и Gemma4-31B (52.0).

Модель также показывает выдающиеся результаты в области мультимодального понимания. Она способна обрабатывать изображения, документы, видео и задачи пространственного мышления. На MMMU (Massive Multi-discipline Multimodal Understanding) Qwen3.6-35B-A3B набирает 81.7, что выше, чем у Claude-Sonnet-4.5 (79.6) и Gemma4-31B (80.4). На RealWorldQA, тестирующем визуальное понимание в реальных фотографических контекстах, модель достигает 85.3, что значительно выше показателей Qwen3.5-27B (83.7) и Claude-Sonnet-4.5 (70.3).

Ключевым моментом является возможность управления поведением модели. Qwen3.6 работает в режиме мышления по умолчанию, генерируя контент, заключенный в теги , перед тем как выдать окончательный ответ. Разработчики могут отключить этот режим через параметр API. Также добавлена функция Thinking Preservation, которая позволяет сохранять и использовать следы мышления из предыдущих сообщений, что особенно полезно для сценариев, где важен полный контекст рассуждений.

Похожие статьи