Gemini Robotics-ER 1.6 улучшает робототехническое восприятие

1 просмотров Источник
Gemini Robotics-ER 1.6 улучшает робототехническое восприятие

Для того чтобы роботы действительно помогали в повседневной жизни и на производстве, они должны не только следовать инструкциям, но и уметь рассуждать о физическом мире. Способность робота к «воплощённому рассуждению» позволяет ему преодолевать разрыв между цифровым интеллектом и физическими действиями. Сегодня мы представляем Gemini Robotics-ER 1.6, значительное обновление нашей модели с акцентом на рассуждения, которое позволяет роботам понимать свои окружения с беспрецедентной точностью.

Улучшив пространственное восприятие и понимание с нескольких точек зрения, мы приносим новый уровень автономии для следующего поколения физических агентов. Эта модель специализируется на критически важных для робототехники способностях рассуждения, включая визуальное и пространственное понимание, планирование задач и определение успеха. Она функционирует как высокоуровневая модель рассуждений для робота, способная выполнять задачи, используя инструменты, такие как Google Search для поиска информации, модели «визуально-языкового-движения» (VLA) или любые другие функции, определенные пользователем.

Gemini Robotics-ER 1.6 демонстрирует значительные улучшения по сравнению как с Gemini Robotics-ER 1.5, так и с Gemini 3.0 Flash, особенно в области пространственного и физического рассуждения, таких как указание, счёт и определение успеха. Мы также открываем новую возможность: считывание инструментов, что позволяет роботам считывать сложные измерительные приборы и смотровые стекла — случай, который мы обнаружили благодаря тесному сотрудничеству с нашим партнёром, компанией Boston Dynamics.

С сегодняшнего дня Gemini Robotics-ER 1.6 доступна для разработчиков через Gemini API и Google AI Studio. Чтобы помочь вам начать работу, мы делимся Colab для разработчиков, содержащим примеры настройки модели и её использования для задач воплощённого рассуждения.

Похожие статьи