Meta представила Muse Spark: мультимодальная модель для reasoning

3 просмотров Источник
Meta представила Muse Spark: мультимодальная модель для reasoning

Meta Superintelligence Labs недавно представила Muse Spark — первую модель в семействе Muse. Muse Spark является мультимодальной моделью reasoning, поддерживающей использование инструментов, визуальную цепочку мышления и многопользовательскую оркестрацию.

Когда Meta описывает Muse Spark как «мультимодальную», это означает, что модель была обучена с нуля для одновременной обработки и reasoning как текстовых, так и визуальных данных, а не просто добавления визуального модуля к языковой модели. Muse Spark интегрирует визуальную информацию из различных областей и инструментов, демонстрируя высокие результаты в задачах, связанных с визуальными STEM-вопросами, распознаванием сущностей и локализацией.

На бенчмарке ScreenSpot Pro, который тестирует локализацию скриншотов, Muse Spark набрала 72.2 балла (84.1 с инструментами Python), что значительно выше, чем у Claude Opus 4.6 Max с 57.7 (83.1 с Python) и GPT-5.4 Xhigh с 39.0 (85.4 с Python).

Meta обозначила три оси масштабирования: предобучение, обучение с подкреплением и reasoning во время тестирования. Эти оси позволяют улучшать возможности модели предсказуемым и измеримым образом. В течение последних девяти месяцев Meta обновила свой стек предобучения, что позволило значительно повысить эффективность, достигнув тех же возможностей с гораздо меньшими вычислительными затратами.

Обучение с подкреплением применяется для улучшения возможностей модели на основе обратной связи, а reasoning во время тестирования позволяет Muse Spark «думать» перед тем, как ответить, что приводит к явлению, называемому сжатием мышления. После начального периода, когда модель улучшает свои результаты, сжатие мышления позволяет решать задачи с использованием значительно меньшего количества токенов.

Интересной особенностью является режим «размышления», который позволяет нескольким агентам работать параллельно и генерировать решения, которые затем уточняются и агрегируются в окончательный ответ. Это дает Muse Spark возможность демонстрировать высокую производительность при сопоставимой задержке.

На бенчмарках в области здравоохранения Muse Spark показывает лучшие результаты, набирая 42.8 на HealthBench Hard по сравнению с 14.8 у Claude Opus 4.6 Max. Для повышения возможностей reasoning в области здравоохранения Meta сотрудничала с более чем 1,000 врачами для создания обучающих данных, позволяющих давать более точные и полные ответы.

Похожие статьи