Google DeepMind представляет Gemini Robotics-ER 1.6 с улучшенным мышле

Команда исследователей Google DeepMind представила Gemini Robotics-ER 1.6, значительное обновление своей модели embodied reasoning, предназначенной для функционирования в качестве «когнитивного мозга» роботов, работающих в реальных условиях. Эта модель специализируется на критически важных для робототехники способностях рассуждения, включая визуальное и пространственное понимание, планирование задач и обнаружение успеха, действуя как высокоуровневая модель рассуждений для робота, способная выполнять задачи, используя такие инструменты, как Google Search, модели vision-language-action (VLA) или любые другие функции, определенные пользователем.

Ключевая архитектурная идея заключается в том, что Google DeepMind использует двойной подход к робототехническому ИИ. Gemini Robotics 1.5 является моделью vision-language-action (VLA), которая обрабатывает визуальные данные и запросы пользователей и напрямую переводит их в физические команды. С другой стороны, Gemini Robotics-ER является моделью embodied reasoning: она специализируется на понимании физических пространств, планировании и логических решениях, но не контролирует непосредственно роботизированные конечности. Вместо этого она предоставляет высокоуровневые идеи, помогающие модели VLA решать, что делать дальше.

Gemini Robotics-ER 1.6 демонстрирует значительное улучшение по сравнению с Gemini Robotics-ER 1.5 и Gemini 3.0 Flash, особенно в области пространственного и физического рассуждения, таких как указание, подсчет и обнаружение успеха. Однако ключевым нововведением является способность, которая вообще не существовала в предыдущих версиях: чтение инструментов. Указание — это способность модели идентифицировать точные пиксельные местоположения на изображении — намного мощнее, чем кажется. Указания могут использоваться для выражения пространственного рассуждения, реляционной логики, рассуждения о движении и соблюдения ограничений.

В внутренних тестах Gemini Robotics-ER 1.6 демонстрирует явное преимущество над своим предшественником. Модель правильно определяет количество молотков, ножниц, кистей, плоскогубцев и садовых инструментов на сцене и не указывает на запрашиваемые объекты, которых нет на изображении. В отличие от этого, Gemini Robotics-ER 1.5 не смогла правильно определить количество молотков или кистей и вовсе пропустила ножницы.

Определение успеха и многопроекционное рассуждение в робототехнике также имеют важное значение. Знание о том, когда задача завершена, так же важно, как и знание о том, как ее начать. Успешное обнаружение служит критическим двигателем принятия решений, позволяющим агенту разумно выбирать между повторной попыткой неудачной попытки или переходом к следующему этапу плана. Gemini Robotics-ER 1.6 продвигает многопроекционное рассуждение, позволяя лучше объединять информацию из нескольких потоков камер, даже в условиях перекрытия или динамически изменяющейся среды.

Новая функция в Gemini Robotics-ER 1.6 — это чтение инструментов, способность интерпретировать аналоговые шкалы, манометры, смотровые стекла и цифровые дисплеи в промышленных условиях. Это задача, возникающая из потребностей инспекции объектов, что является критической областью для Boston Dynamics. Робот Spot от Boston Dynamics может посещать инструменты по всему объекту и захватывать их изображения для интерпретации Gemini Robotics-ER 1.6. Чтение инструментов требует сложного визуального рассуждения, поскольку необходимо точно воспринимать разнообразные входные данные и понимать, как они все взаимосвязаны.

Google DeepMind представляет Gemini Robotics-ER 1.6 с улучшенным мышлением

Похожие статьи

Дроны становятся умнее для крупных сельскохозяйственных угодий

Max Hodak готовит первые испытания интерфейса для мозга человека

Gemini Robotics-ER 1.6 улучшает робототехническое восприятие