Microsoft представила Harrier-OSS-v1: новые многоязычные модели

Компания Microsoft анонсировала выпуск Harrier-OSS-v1, нового семейства многоязычных моделей для текстового встраивания, которые обеспечивают высококачественные семантические представления на множестве языков. В состав релиза вошли три модели различного масштаба: модель на 270 миллионов параметров, модель на 0,6 миллиарда и модель на 27 миллиардов параметров. Модели Harrier-OSS-v1 достигли состояния искусства (SOTA) по результатам на многоязычном MTEB (Massive Text Embedding Benchmark) v2.

Для специалистов в области ИИ этот релиз стал важной вехой в технологии открытого поиска, предлагая масштабируемый ряд моделей, использующих современные архитектуры больших языковых моделей (LLM) для задач встраивания. Семейство Harrier-OSS-v1 отклоняется от традиционных архитектур двунаправленных энкодеров (таких как BERT), которые доминировали в области встраивания на протяжении многих лет. Вместо этого эти модели используют только декодеры, аналогичные тем, что применяются в современных LLM.

Использование архитектуры только декодеров представляет собой изменение в способе обработки контекста. В модели с причинной архитектурой каждый токен может учитывать только токены, которые идут перед ним. Для получения единого вектора, представляющего весь ввод, Harrier использует пуллинг последнего токена. Это означает, что скрытое состояние последнего токена в последовательности используется как агрегированное представление текста, которое затем подвергается L2-нормализации для обеспечения согласованной величины вектора.

Модели Harrier-OSS-v1 характеризуются различными размерами встраивания и поддержкой длинных контекстов. Все три модели обладают контекстным окном на 32,768 токенов, что является значительной особенностью для систем, использующих усиленное извлечение (RAG). Большинство традиционных моделей встраивания ограничены 512 или 1,024 токенами. Расширенное окно позволяет разработчикам ИИ встраивать значительно более крупные документы или кодовые файлы без необходимости агрессивного разбиения, что часто приводит к потере семантической согласованности.

Одним из самых важных аспектов для разработчиков является то, что Harrier-OSS-v1 представляет собой семейство встраиваний, настроенных на инструкции. Для достижения заявленной производительности модели требуется предоставление специфических инструкций по задаче во время запроса. Это позволяет модели динамически настраивать свое векторное пространство в зависимости от задачи, повышая точность извлечения в различных областях, таких как веб-поиск или извлечение двуязычного текста.

Разработка семейства Harrier-OSS-v1 включала многоступенчатый процесс обучения. Хотя модель на 27 миллиардов параметров обеспечивает наибольшее количество параметров и размерность, команда Microsoft использовала специализированные техники для повышения производительности меньших вариантов. Модели на 270 миллионов и 0,6 миллиарда параметров дополнительно обучались с использованием дистилляции знаний от более крупных моделей встраивания, что позволяет им достигать более высокого качества встраивания, чем можно было бы ожидать от их количества параметров.

Многоязычный MTEB v2 является обширным бенчмарком, который оценивает модели по различным задачам, включая классификацию, кластеризацию, парную классификацию и извлечение. Достигнув результатов SOTA на этом бенчмарке при релизе, семейство Harrier демонстрирует высокий уровень мастерства в кросс-язычном извлечении, что особенно ценно для глобальных приложений, где системе может потребоваться обрабатывать запросы и документы на разных языках в одном векторном пространстве.

Microsoft представила Harrier-OSS-v1: новые многоязычные модели

Похожие статьи

MiniMax представляет MMX-CLI: интерфейс командной строки для ИИ-агентов

Создание рабочего процесса для Microsoft VibeVoice с ASR и TTS

Проблема хранения памяти в ИИ: недостатки традиционных систем