Стартап Physical Intelligence представил универсальный робот-ум
Стартап Physical Intelligence из Сан-Франциско, который за два года стал одним из самых ярких представителей AI в этом регионе, представил новое исследование, показывающее, что его последняя модель может управлять роботами для выполнения задач, на которых они не были явно обучены. Эта способность, по словам исследователей компании, оказалась неожиданной. Модель под названием π0.7 представляет собой ранний, но значимый шаг к созданию универсального робот-ума, который может справляться с незнакомыми задачами, получая инструкции на простом языке.
Если результаты подтвердятся, это может означать, что робототехнический AI приближается к переломному моменту, аналогичному тому, что произошло с большими языковыми моделями, когда возможности начинают расти быстрее, чем можно было бы ожидать на основе имеющихся данных. Основной вывод исследования касается композицональной генерализации — способности комбинировать навыки, изученные в разных контекстах, для решения ранее не встречавшихся задач.
До сих пор стандартный подход к обучению роботов сводился к механическому запоминанию: собирали данные по конкретной задаче, обучали специализированную модель, а затем повторяли для каждой новой задачи. Модель π0.7, по словам Physical Intelligence, нарушает этот шаблон. Сергей Левин, соучредитель компании и профессор UC Berkeley, отметил, что как только модель переходит к комбинированию навыков, её возможности начинают расти более чем линейно с увеличением объема данных.
Одним из наиболее ярких примеров, продемонстрированных в исследовании, является работа с фритюрницей, которую модель практически не видела в процессе обучения. Исследовательская группа обнаружила всего два соответствующих эпизода в обучающем наборе данных. Тем не менее, модель смогла синтезировать эти фрагменты и создать функциональное понимание работы устройства. Даже без предварительных инструктажей модель смогла сделать попытку использовать фритюрницу для приготовления сладкого картофеля. С пошаговыми устными инструкциями она успешно справилась с задачей.
Эта способность к обучению на лету важна, так как она позволяет роботам работать в новых условиях и улучшаться в реальном времени без необходимости сбора дополнительных данных или переобучения модели. Однако исследователи признают ограничения модели и осторожны в своих выводах. В одном из случаев они указали на собственные ошибки в формулировке задач для модели, что привело к низкому уровню успеха. После доработки объяснений уровень успешности значительно возрос.
Модель пока не может выполнять сложные многоступенчатые задачи самостоятельно по одной команде. Команда также отметила, что стандартизированные тесты для робототехники фактически отсутствуют, что затрудняет внешнюю валидацию их заявлений. Вместо этого компания сравнила π0.7 с предыдущими специализированными моделями и обнаружила, что универсальная модель показывает аналогичные результаты в различных сложных задачах.
Наиболее примечательным в этом исследовании является не отдельная демонстрация, а степень удивления исследователей от результатов, которые они получили. Это первый случай, когда они были искренне удивлены тем, что модель может делать, несмотря на полное понимание данных, на которых она была обучена. Левин также отметил, что критики могут указать на асимметрию в обучении языковых моделей и роботов, но он считает, что важнее различие между впечатляющей демонстрацией и системой, действительно способной к обобщению.
OpenAI обновляет Codex, чтобы конкурировать с Anthropic
Создание нейронных квантовых состояний для фрустрированных спиновых систем
Похожие статьи
Стартап Antioch разрабатывает симуляционные инструменты для роботов
Стартап Antioch разрабатывает симуляционные инструменты для роботов, чтобы преодолеть разрыв между симуляцией и реальностью.
Cadence расширяет партнерство по ИИ и робототехнике с Nvidia и Google Cloud
Cadence Design Systems анонсировала новые партнерства с Nvidia и Google Cloud для улучшения робототехники и проектирования чипов.
Google DeepMind представляет Gemini Robotics-ER 1.6 с улучшенным мышлением
Google DeepMind анонсировала обновление Gemini Robotics-ER 1.6 с новыми функциями.