Агенты ReAct теряют 90% попыток — как это исправить

В недавнем исследовании, проведенном на 200 задачах, было установлено, что агенты ReAct тратят 90,8% своих попыток на ошибки, которые не могут быть исправлены. Проблема заключается в том, что система продолжает пытаться использовать инструменты, которые не существуют. Это не просто маловероятные ошибки, а гарантированное проваливание. Исследование выявило, что корень проблемы заключается в архитектурном решении — модели позволяется выбирать имя инструмента во время выполнения. Это создает серьезные проблемы, поскольку мониторинг не показывает, сколько из этих попыток были невозможны с самого начала.

В результате, компании, использующие таких агентов, фактически платят за попытки, которые не могут увенчаться успехом, и при этом лишают себя возможности успешных попыток. Важно отметить, что в большинстве случаев мониторинг показывает приемлемый уровень успеха и задержки, но не указывает на количество неудачных попыток, которые были невозможны с самого начала.

В ходе анализа данных было выявлено, что 90,8% попыток были потрачены на ошибки, которые не могли быть исправлены. Это связано с тем, что система не классифицирует ошибки перед повторными попытками, что приводит к потере бюджета на попытки. Три структурных решения могут устранить эту проблему: классификация ошибок перед повторными попытками, использование индивидуальных предохранителей для каждого инструмента и перемещение маршрутизации инструментов в код.

Эти изменения позволят устранить 0% потерь попыток, снизить вариативность шагов в три раза и обеспечить предсказуемое выполнение задач. Ключевым моментом является то, что повторные попытки имеют смысл только для ошибок, которые могут измениться. Если инструмент не существует, повторная попытка гарантированно будет бесполезной.

Важно осознавать, что многие разработчики сталкиваются с этой проблемой, когда в логах фиксируются повторные попытки на несуществующие инструменты. Это часто приводит к тому, что при реальных сбоях нет доступного бюджета для их обработки. Поэтому, если в ваших логах есть повторные попытки на несуществующие инструменты, вы уже сталкиваетесь с этой проблемой, и важно определить, какую долю бюджета она занимает.

Агенты ReAct теряют 90% попыток — как это исправить

Похожие статьи

Ученые MIT, NVIDIA и Университета Чжэцзян предложили TriAttention для оптимизации ИИ

Современные методы RAG: кросс-кодеры и повторная сортировка

Как дистилляция знаний сжимает ансамбли в один ИИ-модель