Искусственный интеллект учится видеть в 3D и понимать пространство

Искусственный интеллект (ИИ) достиг значительных успехов в понимании и интерпретации изображений, но остаётся проблема с пониманием трёхмерного пространства. Современные модели, такие как Foundation models, способны оценивать глубину и сегментировать объекты на изображениях, но не могут полностью осознать 3D-пространство. Ключевым элементом, который недостаёт, является геометрическая фузия — слой, который соединяет 2D-прогнозы ИИ в единое 3D-семантическое понимание.

ИИ может классифицировать фотографии, сегментировать объекты в уличных сценах и генерировать фотореалистичные изображения несуществующих помещений. Однако, когда речь заходит о физическом пространстве, например, о том, чтобы определить, какой объект находится на какой полке, ИИ сталкивается с трудностями. Модели, которые доминируют в бенчмарках компьютерного зрения, работают на плоской поверхности и не имеют врождённого понимания 3D-мира.

Разрыв между интеллектуальной обработкой пикселей и пространственным пониманием является серьёзным препятствием для применения ИИ в реальном мире, включая роботов для навигации по складам и автономные транспортные средства. В статье рассматриваются три слоя ИИ, которые сейчас объединяются для достижения пространственного понимания из обычных фотографий.

Процесс аннотирования 3D-данных остаётся сложной задачей, несмотря на то, что восстановление 3D-геометрии из фотографий уже решено. Модели, такие как Depth-Anything, позволяют создавать плотные 3D-точечные облака из одного видео, но без семантической информации эти данные остаются бесполезными. Чтобы выполнить запросы, такие как «покажите только стены» или «измерьте площадь пола», необходима семантическая аннотация для каждой точки.

Традиционные методы требуют использования LiDAR-сканеров и ручного аннотирования, что делает процесс дорогостоящим. Автоматизированные сети сегментации, такие как PointNet++, могут упростить задачу, но требуют размеченных данных, которые сложно и дорого производить. Таким образом, несмотря на сильные стороны геометрической реконструкции и семантического прогнозирования, нет универсального способа их соединения.

Вопрос заключается не в том, может ли ИИ понять 3D-пространство, а в том, как соединить 2D-прогнозы с 3D-геометрией. В ближайшие годы ожидается, что три независимых направления исследований объединятся в единую мощную систему для автоматического пространственного понимания.

Искусственный интеллект учится видеть в 3D и понимать пространство

Похожие статьи

UCSD и Together AI представляют Parcae: стабильную архитектуру для языковых моделей

DeepL запускает перевод голоса для встреч и разговоров

Создание многоагентных систем ИИ с помощью SmolAgents и динамической оркестрации