Познакомьтесь с AutoAgent: библиотека для автономной оптимизации ИИ
Каждый инженер в области искусственного интеллекта знаком с рутинной задачей настройки промптов. Вы пишете системный промпт, запускаете агента на тестах, анализируете ошибки, вносите изменения и повторяете процесс. Это утомительная работа, замаскированная под Python-код. Однако новая библиотека с открытым исходным кодом под названием AutoAgent, разработанная Кевином Гу из thirdlayer.inc, предлагает альтернативу — пусть это сделает ИИ. AutoAgent предназначен для автономного улучшения агента в любой области. За 24 часа он занял первое место на SpreadsheetBench с результатом 96,5% и достиг первого места на TerminalBench с результатом 55,1%.
AutoAgent можно охарактеризовать как 'автоисследование, но для инженерии агентов'. Идея заключается в том, чтобы дать ИИ агенту задачу и позволить ему самостоятельно разрабатывать и улучшать агентскую систему за ночь. Он изменяет системный промпт, инструменты, конфигурацию агента и оркестрацию, запускает тесты, проверяет результат, сохраняет или отклоняет изменения и повторяет процесс. Аналогия с автоисследованием заключается в том, что оно выполняет аналогичный цикл для обучения машин — предлагает, обучает и оценивает, сохраняя только изменения, которые улучшают валидацию. AutoAgent переносит этот цикл в инженерию агентов, оптимизируя не веса модели или гиперпараметры, а саму систему — системный промпт, определения инструментов и логику маршрутизации.
Структура проекта на GitHub довольно проста. agent.py содержит всю тестируемую систему в одном файле — в него входят конфигурация, определения инструментов, реестр агентов и логика маршрутизации. Программа program.md содержит инструкции для мета-агента и директиву о том, какого рода агента создать, и это единственный файл, который редактирует человек. Человек задает направление в program.md, а мета-агент читает эту директиву, анализирует agent.py, запускает тесты, диагностирует ошибки, переписывает соответствующие части agent.py и повторяет процесс. Человек никогда не взаимодействует с agent.py напрямую.
Ключевым элементом инфраструктуры, который поддерживает последовательность итераций, является results.tsv — журнал экспериментов, автоматически создаваемый и поддерживаемый мета-агентом. Он отслеживает каждый запуск эксперимента, предоставляя мета-агенту историю для обучения и калибровки. Полная структура проекта также включает Dockerfile.base, опциональную директорию .agent/ для повторно используемых артефактов рабочего пространства, папку tasks/ для тестовых заданий и директорию jobs/ для выходных данных Harbor. Метрическая оценка — это общий балл, полученный от тестов. Мета-агент оптимизирует этот балл, принимая решения о сохранении или отклонении изменений в зависимости от результатов тестов.
Методы тестирования и интеграции с Harbor позволяют выражать тесты в формате задач. Каждая задача содержит конфигурацию, инструкции и тесты, которые записывают результаты в логи. Мета-агент использует эти результаты для оптимизации. Интересно, что вместо детерминированной проверки ответов тесты могут использовать другой ИИ для оценки, насколько 'правильным' является вывод агента. Это распространено в тестах, где правильные ответы не сводятся к простому совпадению строк.
AutoAgent демонстрирует, что автономная инженерия систем работает — мета-агент может полностью заменить человеческую настройку промптов, итеративно улучшая agent.py без вмешательства человека. Результаты тестов подтверждают этот подход. В 24-часовом запуске AutoAgent занял первое место на SpreadsheetBench и получил лучший результат GPT-5 на TerminalBench, обойдя всех, кто использовал ручную настройку. Работа человека теперь заключается в том, чтобы задавать цели, а не писать код. Это делает AutoAgent универсальным инструментом, подходящим для любых задач.
NVIDIA демонстрирует прорывы в робототехнике на Неделе робототехники
Япония использует роботов для решения проблемы нехватки рабочей силы
Похожие статьи
Google представляет нативное приложение Gemini для Mac
Google запускает нативное приложение Gemini для Mac, позволяя пользователям получать помощь мгновенно.
Обновлённое приложение Claude Code от Anthropic и новые возможности для бизнеса
Anthropic представила обновлённое приложение Claude Code и функцию Routines, меняющие подход к разработке.
Google представил Gemini 3.1 Flash TTS с улучшенной речью и контролем
Google анонсировал Gemini 3.1 Flash TTS с улучшенной речью и контролем.