Netflix открывает VOID: ИИ для удаления объектов из видео
Редактирование видео всегда скрывало одну тайну: удалить объект из кадра легко, но сделать так, чтобы сцена выглядела так, будто его никогда не было, крайне сложно. Например, если убрать человека с гитарой, то останется парящий инструмент, который нарушает закон гравитации. Команды VFX в Голливуде тратят недели на исправление подобных проблем. Исследователи из Netflix и INSAIT, Софийского университета «Св. Климент Охридский», выпустили модель VOID (Video Object and Interaction Deletion), которая может делать это автоматически.
VOID удаляет объекты из видео вместе со всеми взаимодействиями, которые они вызывают в сцене — не только вторичные эффекты, такие как тени и отражения, но и физические взаимодействия, например, объекты падают, когда человек удаляется. Стандартные модели видеозаполнения, используемые в большинстве рабочих процессов редактирования, обучаются заполнять пиксельную область, где находился объект. Они являются очень сложными фоновыми живописцами, но не учитывают причинно-следственные связи: если я убираю актера, держащего реквизит, что должно произойти с этим реквизитом?
Существующие методы удаления объектов из видео отлично справляются с заполнением контента «за» объектом и исправлением артефактов на уровне внешнего вида, таких как тени и отражения. Однако, когда удаляемый объект имеет более значительные взаимодействия, такие как столкновения с другими объектами, текущие модели не могут их исправить и выдают неправдоподобные результаты. VOID построен на основе CogVideoX и дообучен для видеозаполнения с учетом взаимодействий. Ключевое новшество заключается в том, как модель понимает сцену — не просто «какие пиксели я должен заполнить?», а «что физически возможно после исчезновения этого объекта?»
Канонический пример из исследовательской работы: если убрать человека с гитарой, VOID также убирает влияние человека на гитару — заставляя ее упасть естественным образом. Это не тривиально. Модель должна понимать, что гитара поддерживалась человеком, и что удаление человека означает, что гравитация берет верх. В отличие от предыдущих работ, VOID был оценен в прямом сравнении с реальными конкурентами. Эксперименты как на синтетических, так и на реальных данных показывают, что подход лучше сохраняет согласованную динамику сцены после удаления объекта по сравнению с предыдущими методами удаления объектов из видео, включая ProPainter, DiffuEraser, Runway, MiniMax-Remover, ROSE и Gen-Omnimatte.
VOID построен на CogVideoX-Fun-V1.5-5b-InP — модели от Alibaba PAI — и дообучен для видеозаполнения с учетом взаимодействий. CogVideoX — это модель генерации видео на основе 3D-трансформеров. Это можно представить как видео-версию Stable Diffusion — диффузионную модель, которая работает с временными последовательностями кадров, а не с отдельными изображениями. Спецификации дообученной архитектуры: 3D-трансформер CogVideoX с 5 миллиардами параметров, принимающий на вход видео, квадромаску и текстовый запрос, описывающий сцену после удаления, с разрешением 384×672 и максимальным количеством 197 кадров.
VOID использует двухпроходной инференсный процесс. Вы можете запустить инференс только с первым проходом или соединить оба прохода для большей временной согласованности. Первый проход является базовой моделью заполнения и достаточно для большинства видео. Второй проход служит конкретной цели: исправлению известного режима неудачи. Если модель обнаруживает морфинг объектов — известный режим неудачи меньших видео-диффузионных моделей — второй проход повторно запускает инференс, используя искаженный шум, полученный из первого прохода, стабилизируя форму объектов вдоль вновь синтезированных траекторий.
Создайте готовые к производству агентные системы с Z.AI GLM-5
NVIDIA демонстрирует прорывы в робототехнике на Неделе робототехники
Похожие статьи
Adobe представляет Firefly AI Assistant для упрощения работы с Creative Cloud
Adobe запускает Firefly AI Assistant для упрощения работы с Creative Cloud.
TinyFish AI запускает платформу для AI-агентов с единственным API
TinyFish AI представил платформу для AI-агентов с четырьмя инструментами и единым API.
Строим центры обработки данных в космосе для ИИ
Компании строят центры обработки данных в космосе, но реальность остается неясной.