Google DeepMind создает алгоритмы для игр с помощью LLM
Исследование Google DeepMind представляет AlphaEvolve, мощный агент, использующий LLM для автоматизации разработки алгоритмов в многопользовательском обучении с подкреплением (MARL) в условиях неполной информации. Традиционно процесс проектирования таких алгоритмов основывался на интуиции и пробах, что требовало значительных временных затрат. AlphaEvolve заменяет этот ручной процесс на автоматизированный поиск, что позволяет исследователям сосредоточиться на более сложных аспектах.
Команда применяет AlphaEvolve к двум устоявшимся парадигмам: минимизации контрфактического сожаления (CFR) и оракулу пространственного отклика (PSRO). В обоих случаях система находит новые варианты алгоритмов, которые показывают конкурентоспособные результаты по сравнению с существующими алгоритмами, разработанными вручную. Все эксперименты проводились с использованием фреймворка OpenSpiel.
CFR — это итеративный алгоритм, который минимизирует сожаление, накапливая контрфактическое сожаление и выводя новую политику на основе положительного накопленного сожаления. Система AlphaEvolve использует это, чтобы улучшить процесс, позволяя алгоритмам эволюционировать и адаптироваться к различным условиям игры.
AlphaEvolve представляет собой распределенную эволюционную систему, которая использует LLM для мутации исходного кода, а не числовых параметров. В процессе работы алгоритмы выбираются на основе их эффективности, и их код модифицируется с помощью LLM, что позволяет создавать новые кандидаты, которые затем тестируются на различных играх.
Одним из обнаруженных алгоритмов является VAD-CFR, который адаптирует методику дисконта к изменчивости процесса обучения. Он использует адаптивное дисконто, что позволяет алгоритму быстрее забывать нестабильные данные и лучше реагировать на текущие действия. VAD-CFR показывает отличные результаты, превышающие показатели существующих алгоритмов в большинстве тестов.
Также был разработан AOD-CFR, который использует линейный график для дисконта накопленного сожаления и оптимистичное отношение к политике. Эти достижения подчеркивают потенциал LLM в разработке сложных алгоритмов и открывают новые горизонты для автоматизации в области искусственного интеллекта.
NVIDIA достигает рекорда по производительности и снижает стоимость токенов
Создайте готовые к производству агентные системы с Z.AI GLM-5
Похожие статьи
Создание системы RAG для корпоративных баз знаний на LLM
Как построить систему RAG для корпоративных баз знаний на основе LLM.
Оптимизация затрат на ИИ с помощью Amazon Bedrock Projects
Amazon Bedrock Projects помогает эффективно управлять затратами на ИИ.
Создание text-to-SQL решения с использованием Amazon Bedrock
Amazon Bedrock предлагает решение text-to-SQL, ускоряющее доступ к аналитическим данным.