Google DeepMind представляет Gemini Robotics-ER 1.6 с улучшенным мышлением
Команда исследователей Google DeepMind представила Gemini Robotics-ER 1.6, значительное обновление своей модели embodied reasoning, предназначенной для функционирования в качестве «когнитивного мозга» роботов, работающих в реальных условиях. Эта модель специализируется на критически важных для робототехники способностях рассуждения, включая визуальное и пространственное понимание, планирование задач и обнаружение успеха, действуя как высокоуровневая модель рассуждений для робота, способная выполнять задачи, используя такие инструменты, как Google Search, модели vision-language-action (VLA) или любые другие функции, определенные пользователем.
Ключевая архитектурная идея заключается в том, что Google DeepMind использует двойной подход к робототехническому ИИ. Gemini Robotics 1.5 является моделью vision-language-action (VLA), которая обрабатывает визуальные данные и запросы пользователей и напрямую переводит их в физические команды. С другой стороны, Gemini Robotics-ER является моделью embodied reasoning: она специализируется на понимании физических пространств, планировании и логических решениях, но не контролирует непосредственно роботизированные конечности. Вместо этого она предоставляет высокоуровневые идеи, помогающие модели VLA решать, что делать дальше.
Gemini Robotics-ER 1.6 демонстрирует значительное улучшение по сравнению с Gemini Robotics-ER 1.5 и Gemini 3.0 Flash, особенно в области пространственного и физического рассуждения, таких как указание, подсчет и обнаружение успеха. Однако ключевым нововведением является способность, которая вообще не существовала в предыдущих версиях: чтение инструментов. Указание — это способность модели идентифицировать точные пиксельные местоположения на изображении — намного мощнее, чем кажется. Указания могут использоваться для выражения пространственного рассуждения, реляционной логики, рассуждения о движении и соблюдения ограничений.
В внутренних тестах Gemini Robotics-ER 1.6 демонстрирует явное преимущество над своим предшественником. Модель правильно определяет количество молотков, ножниц, кистей, плоскогубцев и садовых инструментов на сцене и не указывает на запрашиваемые объекты, которых нет на изображении. В отличие от этого, Gemini Robotics-ER 1.5 не смогла правильно определить количество молотков или кистей и вовсе пропустила ножницы.
Определение успеха и многопроекционное рассуждение в робототехнике также имеют важное значение. Знание о том, когда задача завершена, так же важно, как и знание о том, как ее начать. Успешное обнаружение служит критическим двигателем принятия решений, позволяющим агенту разумно выбирать между повторной попыткой неудачной попытки или переходом к следующему этапу плана. Gemini Robotics-ER 1.6 продвигает многопроекционное рассуждение, позволяя лучше объединять информацию из нескольких потоков камер, даже в условиях перекрытия или динамически изменяющейся среды.
Новая функция в Gemini Robotics-ER 1.6 — это чтение инструментов, способность интерпретировать аналоговые шкалы, манометры, смотровые стекла и цифровые дисплеи в промышленных условиях. Это задача, возникающая из потребностей инспекции объектов, что является критической областью для Boston Dynamics. Робот Spot от Boston Dynamics может посещать инструменты по всему объекту и захватывать их изображения для интерпретации Gemini Robotics-ER 1.6. Чтение инструментов требует сложного визуального рассуждения, поскольку необходимо точно воспринимать разнообразные входные данные и понимать, как они все взаимосвязаны.
Сравнение ИИ между США и Китаем: разрыв в ответственности растёт
Будущее сжатия данных: от пикселей до ДНК
Похожие статьи
Дроны становятся умнее для крупных сельскохозяйственных угодий
Компания GEODASH Aerosystems разрабатывает умные дроны для сельского хозяйства.
Max Hodak готовит первые испытания интерфейса для мозга человека
Science Corporation готовится к первым испытаниям биогибридного интерфейса мозг-компьютер.
Gemini Robotics-ER 1.6 улучшает робототехническое восприятие
Gemini Robotics-ER 1.6 улучшает способности роботов к рассуждению о физическом мире.