Познакомьтесь с AutoAgent: библиотека для автономной оптимизации ИИ

Каждый инженер в области искусственного интеллекта знаком с рутинной задачей настройки промптов. Вы пишете системный промпт, запускаете агента на тестах, анализируете ошибки, вносите изменения и повторяете процесс. Это утомительная работа, замаскированная под Python-код. Однако новая библиотека с открытым исходным кодом под названием AutoAgent, разработанная Кевином Гу из thirdlayer.inc, предлагает альтернативу — пусть это сделает ИИ. AutoAgent предназначен для автономного улучшения агента в любой области. За 24 часа он занял первое место на SpreadsheetBench с результатом 96,5% и достиг первого места на TerminalBench с результатом 55,1%.

AutoAgent можно охарактеризовать как 'автоисследование, но для инженерии агентов'. Идея заключается в том, чтобы дать ИИ агенту задачу и позволить ему самостоятельно разрабатывать и улучшать агентскую систему за ночь. Он изменяет системный промпт, инструменты, конфигурацию агента и оркестрацию, запускает тесты, проверяет результат, сохраняет или отклоняет изменения и повторяет процесс. Аналогия с автоисследованием заключается в том, что оно выполняет аналогичный цикл для обучения машин — предлагает, обучает и оценивает, сохраняя только изменения, которые улучшают валидацию. AutoAgent переносит этот цикл в инженерию агентов, оптимизируя не веса модели или гиперпараметры, а саму систему — системный промпт, определения инструментов и логику маршрутизации.

Структура проекта на GitHub довольно проста. agent.py содержит всю тестируемую систему в одном файле — в него входят конфигурация, определения инструментов, реестр агентов и логика маршрутизации. Программа program.md содержит инструкции для мета-агента и директиву о том, какого рода агента создать, и это единственный файл, который редактирует человек. Человек задает направление в program.md, а мета-агент читает эту директиву, анализирует agent.py, запускает тесты, диагностирует ошибки, переписывает соответствующие части agent.py и повторяет процесс. Человек никогда не взаимодействует с agent.py напрямую.

Ключевым элементом инфраструктуры, который поддерживает последовательность итераций, является results.tsv — журнал экспериментов, автоматически создаваемый и поддерживаемый мета-агентом. Он отслеживает каждый запуск эксперимента, предоставляя мета-агенту историю для обучения и калибровки. Полная структура проекта также включает Dockerfile.base, опциональную директорию .agent/ для повторно используемых артефактов рабочего пространства, папку tasks/ для тестовых заданий и директорию jobs/ для выходных данных Harbor. Метрическая оценка — это общий балл, полученный от тестов. Мета-агент оптимизирует этот балл, принимая решения о сохранении или отклонении изменений в зависимости от результатов тестов.

Методы тестирования и интеграции с Harbor позволяют выражать тесты в формате задач. Каждая задача содержит конфигурацию, инструкции и тесты, которые записывают результаты в логи. Мета-агент использует эти результаты для оптимизации. Интересно, что вместо детерминированной проверки ответов тесты могут использовать другой ИИ для оценки, насколько 'правильным' является вывод агента. Это распространено в тестах, где правильные ответы не сводятся к простому совпадению строк.

AutoAgent демонстрирует, что автономная инженерия систем работает — мета-агент может полностью заменить человеческую настройку промптов, итеративно улучшая agent.py без вмешательства человека. Результаты тестов подтверждают этот подход. В 24-часовом запуске AutoAgent занял первое место на SpreadsheetBench и получил лучший результат GPT-5 на TerminalBench, обойдя всех, кто использовал ручную настройку. Работа человека теперь заключается в том, чтобы задавать цели, а не писать код. Это делает AutoAgent универсальным инструментом, подходящим для любых задач.

Познакомьтесь с AutoAgent: библиотека для автономной оптимизации ИИ

Похожие статьи

Google представляет нативное приложение Gemini для Mac

Обновлённое приложение Claude Code от Anthropic и новые возможности для бизнеса

Google представил Gemini 3.1 Flash TTS с улучшенной речью и контролем