D4RT революционизирует 4D реконструкцию и трекинг в AI

D4RT: Интегрированная и Быстрая 4D Реконструкция и Трекинг

22 января 2026 года

Исследование

Авторы: Гийом Ле Муэн и Мехди С. М. Саджади

D4RT представляет собой новый AI-модель, предлагающую единое решение для реконструкции и отслеживания 4D сцен, охватывающую как пространственные, так и временные измерения. Цель модели — улучшить способность машин воспринимать мир, подобно человеческому зрению, включая память и предсказание.

Понимание Четвертого Измерения

Для понимания динамических сцен из 2D видео AI-модели должны отслеживать каждый пиксель в трех измерениях пространства и дополнительном измерении времени. Это включает различение движения объектов от движения камеры и поддержание целостного представления сцены, даже когда объекты перекрывают друг друга или выходят из кадра. Традиционные методы требуют ресурсов или использования специализированных моделей, что приводит к медленным и разрозненным реконструкциям. В отличие от них, архитектура D4RT и инновационный механизм запросов позволяют модели быть до 300 раз эффективнее предыдущих подходов, что делает ее подходящей для использования в реальном времени в таких областях, как робототехника и дополненная реальность.

Функциональность на Основе Запросов

D4RT построена на архитектуре Transformer с энкодером-декодером. Энкодер преобразует видео в компактное представление геометрии сцены и движения. В отличие от старых систем, использующих отдельные модули для разных задач, D4RT применяет гибкий механизм запросов, сосредоточенный на главном вопросе:

"Где находится данный пиксель из видео в 3D пространстве в определенное время, как это наблюдается с выбранной камеры?"

На основе предыдущих исследований декодер эффективно обрабатывает запросы, связанные с этим представлением. Поскольку запросы независимы, они могут обрабатываться параллельно на современном AI-оборудовании, что увеличивает скорость и масштабируемость D4RT для задач от отслеживания точек до реконструкции целых сцен.

D4RT объединяет мощный энкодер с легким декодером, способным обрабатывать тысячи запросов одновременно. Решая конкретные вопросы, такие как определение позиции пикселя в определенное время и под углом камеры, модель успешно справляется с различными задачами, такими как отслеживание, оценка глубины и оценка позы с помощью единого, адаптируемого интерфейса.

Возможности: Быстрая и Точная 4D Интерпретация

Гибкий дизайн модели позволяет ей решать различные 4D задачи, включая:

Отслеживание Точек: Запрашивая позицию пикселя во времени, D4RT может предсказывать его 3D траекторию, даже если объект не виден в последующих кадрах.
Реконструкция Облака Точек: D4RT может создавать всю 3D структуру сцены, фиксируя время и точку обзора камеры, исключая дополнительные шаги, такие как оценка камеры.
Оценка Позиции Камеры: Сопоставляя 3D изображения момента с нескольких точек обзора, D4RT может точно определить траекторию камеры.

Согласно техническому отчету, D4RT превосходит существующие методы в различных задачах 4D реконструкции. Сравнения показывают, что в то время как другие техники испытывают трудности с движущимися объектами, D4RT поддерживает непрерывное понимание динамических сцен. Это достигается без потери эффективности, выполняя задачи в 18-300 раз быстрее, чем предыдущие методы. Например, D4RT может обработать минутное видео примерно за пять секунд на одном TPU-чипе, по сравнению с десятью минутами с предыдущими технологиями, что означает улучшение в 120 раз.

Практическое Применение

D4RT демонстрирует, что точность и эффективность в 4D реконструкции могут сосуществовать. Ее система на основе запросов позволяет в реальном времени захватывать динамическую среду, прокладывая путь для передовых пространственных вычислений в:

Робототехника: Обеспечивает пространственную осведомленность, необходимую роботам для безопасной навигации в средах, заполненных движущимися объектами и людьми.
Дополненная Реальность (AR): Поддерживает AR-устройства, предлагая в реальном времени понимание геометрии сцены с низкой задержкой, что облегчает использование на устройстве.
Мировые Модели: Эффективно разделяя различные движения и статические элементы, D4RT способствует развитию AI с комплексной "мировой моделью", необходимой для достижения AGI.

Исследование потенциальных применений D4RT в робототехнике, AR и других областях продолжается.

Дополнительные Разработки

Gemini Robotics 1.5 Вводит AI-Агентов в Физический Мир
Представляем Veo 3.1 и Расширенные Творческие Возможности
Genie 3: Новая Граница для Мировых Моделей

D4RT революционизирует 4D реконструкцию и трекинг в AI

D4RT: Интегрированная и Быстрая 4D Реконструкция и Трекинг

Понимание Четвертого Измерения

Функциональность на Основе Запросов

Возможности: Быстрая и Точная 4D Интерпретация

Практическое Применение

Дополнительные Разработки

Похожие статьи

Gemini 3.1 Pro помогает решать самые сложные задачи пользователей

Gemini запускает музыкальное поколение для креативного самовыражения

Veo 3.1 трансформирует изображения в яркие видео для мобильных платформ