D4RT революционизирует 4D реконструкцию и трекинг в AI
D4RT: Интегрированная и Быстрая 4D Реконструкция и Трекинг
22 января 2026 года
Исследование
Авторы: Гийом Ле Муэн и Мехди С. М. Саджади
D4RT представляет собой новый AI-модель, предлагающую единое решение для реконструкции и отслеживания 4D сцен, охватывающую как пространственные, так и временные измерения. Цель модели — улучшить способность машин воспринимать мир, подобно человеческому зрению, включая память и предсказание.
Понимание Четвертого Измерения
Для понимания динамических сцен из 2D видео AI-модели должны отслеживать каждый пиксель в трех измерениях пространства и дополнительном измерении времени. Это включает различение движения объектов от движения камеры и поддержание целостного представления сцены, даже когда объекты перекрывают друг друга или выходят из кадра. Традиционные методы требуют ресурсов или использования специализированных моделей, что приводит к медленным и разрозненным реконструкциям. В отличие от них, архитектура D4RT и инновационный механизм запросов позволяют модели быть до 300 раз эффективнее предыдущих подходов, что делает ее подходящей для использования в реальном времени в таких областях, как робототехника и дополненная реальность.
Функциональность на Основе Запросов
D4RT построена на архитектуре Transformer с энкодером-декодером. Энкодер преобразует видео в компактное представление геометрии сцены и движения. В отличие от старых систем, использующих отдельные модули для разных задач, D4RT применяет гибкий механизм запросов, сосредоточенный на главном вопросе:
"Где находится данный пиксель из видео в 3D пространстве в определенное время, как это наблюдается с выбранной камеры?"
На основе предыдущих исследований декодер эффективно обрабатывает запросы, связанные с этим представлением. Поскольку запросы независимы, они могут обрабатываться параллельно на современном AI-оборудовании, что увеличивает скорость и масштабируемость D4RT для задач от отслеживания точек до реконструкции целых сцен.
D4RT объединяет мощный энкодер с легким декодером, способным обрабатывать тысячи запросов одновременно. Решая конкретные вопросы, такие как определение позиции пикселя в определенное время и под углом камеры, модель успешно справляется с различными задачами, такими как отслеживание, оценка глубины и оценка позы с помощью единого, адаптируемого интерфейса.
Возможности: Быстрая и Точная 4D Интерпретация
Гибкий дизайн модели позволяет ей решать различные 4D задачи, включая:
- Отслеживание Точек: Запрашивая позицию пикселя во времени, D4RT может предсказывать его 3D траекторию, даже если объект не виден в последующих кадрах.
- Реконструкция Облака Точек: D4RT может создавать всю 3D структуру сцены, фиксируя время и точку обзора камеры, исключая дополнительные шаги, такие как оценка камеры.
- Оценка Позиции Камеры: Сопоставляя 3D изображения момента с нескольких точек обзора, D4RT может точно определить траекторию камеры.
Согласно техническому отчету, D4RT превосходит существующие методы в различных задачах 4D реконструкции. Сравнения показывают, что в то время как другие техники испытывают трудности с движущимися объектами, D4RT поддерживает непрерывное понимание динамических сцен. Это достигается без потери эффективности, выполняя задачи в 18-300 раз быстрее, чем предыдущие методы. Например, D4RT может обработать минутное видео примерно за пять секунд на одном TPU-чипе, по сравнению с десятью минутами с предыдущими технологиями, что означает улучшение в 120 раз.
Практическое Применение
D4RT демонстрирует, что точность и эффективность в 4D реконструкции могут сосуществовать. Ее система на основе запросов позволяет в реальном времени захватывать динамическую среду, прокладывая путь для передовых пространственных вычислений в:
- Робототехника: Обеспечивает пространственную осведомленность, необходимую роботам для безопасной навигации в средах, заполненных движущимися объектами и людьми.
- Дополненная Реальность (AR): Поддерживает AR-устройства, предлагая в реальном времени понимание геометрии сцены с низкой задержкой, что облегчает использование на устройстве.
- Мировые Модели: Эффективно разделяя различные движения и статические элементы, D4RT способствует развитию AI с комплексной "мировой моделью", необходимой для достижения AGI.
Исследование потенциальных применений D4RT в робототехнике, AR и других областях продолжается.
Дополнительные Разработки
- Gemini Robotics 1.5 Вводит AI-Агентов в Физический Мир
- Представляем Veo 3.1 и Расширенные Творческие Возможности
- Genie 3: Новая Граница для Мировых Моделей
Похожие статьи
Gemini 3.1 Pro помогает решать самые сложные задачи пользователей
Gemini 3.1 Pro — новая модель ИИ от Google, предназначенная для решения сложных задач. Узнайте о её возможностях и интеграции в продукты.
Gemini запускает музыкальное поколение для креативного самовыражения
Gemini app теперь позволяет создавать уникальную музыку с помощью модели Lyria 3. Опишите идею или загрузите фото, и получите оригинальный трек!
Veo 3.1 трансформирует изображения в яркие видео для мобильных платформ
Veo 3.1 преобразует изображения в яркие видео для мобильных платформ, поддерживая вертикальные форматы и улучшая качество до 4K. Узнайте больше!