Meta AI представляет EUPE: компактный энкодер для смартфонов

Работа с мощным искусственным интеллектом на смартфонах — это не только проблема аппаратного обеспечения, но и архитектуры моделей. Большинство современных энкодеров изображения имеют огромные размеры, и при их уменьшении для работы на мобильных устройствах они теряют свои полезные качества. Более того, специализированные модели часто показывают отличные результаты только в одной области, например, в классификации изображений или сегментации сцен, но не могут справляться с задачами за пределами своей специализации.

Исследовательские группы Meta AI предлагают новый подход, представив Efficient Universal Perception Encoder (EUPE) — компактный энкодер, способный одновременно обрабатывать различные задачи компьютерного зрения без необходимости в больших размерах. Чтобы понять важность EUPE, полезно разобраться в том, как работают энкодеры и почему специализация может быть проблемой.

Энкодер изображения — это часть модели компьютерного зрения, которая преобразует пиксели изображения в компактное представление, используемое для последующих задач, таких как классификация или сегментация. Современные энкодеры обучаются с конкретными целями, что дает им преимущество в определенных областях. Например, модели CLIP и SigLIP 2 хорошо понимают изображения, но их производительность в задачах плотного предсказания часто оказывается ниже ожидаемого. В то же время DINOv2 и DINOv3 показывают отличные результаты в задачах плотного предсказания, но не могут удовлетворительно справляться с задачами, связанными с языком.

Для мобильных устройств, таких как смартфоны или AR-гарнитуры, которые должны обрабатывать все эти типы задач одновременно, традиционным решением является использование нескольких энкодеров, что быстро становится экономически нецелесообразным. Альтернативой является признание того, что один энкодер будет недостаточно эффективным во многих областях. Исследователи пытались объединить сильные стороны нескольких специализированных энкодеров с помощью методов агломеративной дистилляции, но результаты в случае эффективных моделей значительно ухудшаются.

Ключевое открытие EUPE заключается в принципе «сначала масштабируем, затем уменьшаем». Вместо того чтобы дистиллировать знания от нескольких экспертов в одну небольшую модель, EUPE вводит промежуточную модель — крупного прокси-учителя, который способен объединить знания всех доменных экспертов. Этот прокси-учитель затем передает свои знания эффективному студенту через дистилляцию.

Meta AI представляет EUPE: компактный энкодер для смартфонов

Похожие статьи

Искусственный интеллект обучается на собственных ошибках и как это исправить

Технологии денойзинга улучшают качество цифровых изображений

Atlassian запускает визуальные ИИ-инструменты и агентов в Confluence