Alibaba представляет Qwen3.5 Omni: новый мультимодальный ИИ

17 просмотров Источник
Alibaba представляет Qwen3.5 Omni: новый мультимодальный ИИ

Команда Alibaba Qwen представила Qwen3.5-Omni, новый мультимодальный языковой модель, который стал значительным шагом вперёд в эволюции технологий. Этот модель, разработанная как конкурент таким флагманским решениям, как Gemini 3.1 Pro, предлагает единый фреймворк для обработки текста, изображений, аудио и видео одновременно в рамках одной вычислительной цепочки.

Ключевой особенностью Qwen3.5-Omni является архитектура Thinker-Talker и использование гибридного механизма внимания Mixture of Experts (MoE) для всех модальностей. Это позволяет модели обрабатывать большие контекстные окна и обеспечивать взаимодействие в реальном времени без традиционных задержек, присущих каскадным системам.

Серия Qwen3.5-Omni представлена в трёх вариантах: Plus, Flash и Light, которые сбалансированы по производительности и стоимости. Модель Plus обеспечивает высокую сложность рассуждений и максимальную точность, в то время как Flash оптимизирована для высокой пропускной способности и низкой задержки взаимодействия. Light, в свою очередь, является более компактным вариантом для задач, ориентированных на эффективность.

Архитектура Thinker-Talker включает два основных компонента: Thinker и Talker. В отличие от предыдущих моделей, которые полагались на внешние предварительно обученные кодеры, Qwen3.5-Omni использует встроенный Audio Transformer (AuT) кодер, обученный на более чем 100 миллионах часов аудиовизуальных данных. Это позволяет модели лучше понимать временные и акустические нюансы, которые отсутствуют в традиционных текстовых моделях.

Qwen3.5-Omni также продемонстрировала выдающиеся результаты на глобальных рейтингах, достигнув состояния наилучшего результата (SOTA) в 215 задачах понимания аудио и аудиовизуального контента. Модель превосходит Gemini 3.1 Pro в общем понимании аудио, распознавании и переводе, достигая паритета с флагманом Google в области аудиовизуального понимания.

Для обеспечения взаимодействия в реальном времени команда Alibaba разработала технологии, такие как ARIA (Adaptive Rate Interleave Alignment), которые позволяют динамически синхронизировать текстовые и аудиовходы. Это улучшает естественность и устойчивость синтеза речи, не увеличивая задержку.

Одной из уникальных возможностей Qwen3.5-Omni является Audio-Visual Vibe Coding, которая позволяет выполнять кодирование на основе аудиовизуальных инструкций, что открывает новые горизонты для разработчиков и пользователей.

Похожие статьи