Google DeepMind создает алгоритмы для игр с помощью LLM

Исследование Google DeepMind представляет AlphaEvolve, мощный агент, использующий LLM для автоматизации разработки алгоритмов в многопользовательском обучении с подкреплением (MARL) в условиях неполной информации. Традиционно процесс проектирования таких алгоритмов основывался на интуиции и пробах, что требовало значительных временных затрат. AlphaEvolve заменяет этот ручной процесс на автоматизированный поиск, что позволяет исследователям сосредоточиться на более сложных аспектах.

Команда применяет AlphaEvolve к двум устоявшимся парадигмам: минимизации контрфактического сожаления (CFR) и оракулу пространственного отклика (PSRO). В обоих случаях система находит новые варианты алгоритмов, которые показывают конкурентоспособные результаты по сравнению с существующими алгоритмами, разработанными вручную. Все эксперименты проводились с использованием фреймворка OpenSpiel.

CFR — это итеративный алгоритм, который минимизирует сожаление, накапливая контрфактическое сожаление и выводя новую политику на основе положительного накопленного сожаления. Система AlphaEvolve использует это, чтобы улучшить процесс, позволяя алгоритмам эволюционировать и адаптироваться к различным условиям игры.

AlphaEvolve представляет собой распределенную эволюционную систему, которая использует LLM для мутации исходного кода, а не числовых параметров. В процессе работы алгоритмы выбираются на основе их эффективности, и их код модифицируется с помощью LLM, что позволяет создавать новые кандидаты, которые затем тестируются на различных играх.

Одним из обнаруженных алгоритмов является VAD-CFR, который адаптирует методику дисконта к изменчивости процесса обучения. Он использует адаптивное дисконто, что позволяет алгоритму быстрее забывать нестабильные данные и лучше реагировать на текущие действия. VAD-CFR показывает отличные результаты, превышающие показатели существующих алгоритмов в большинстве тестов.

Также был разработан AOD-CFR, который использует линейный график для дисконта накопленного сожаления и оптимистичное отношение к политике. Эти достижения подчеркивают потенциал LLM в разработке сложных алгоритмов и открывают новые горизонты для автоматизации в области искусственного интеллекта.

Google DeepMind создает алгоритмы для игр с помощью LLM

Похожие статьи

Создание системы RAG для корпоративных баз знаний на LLM

Оптимизация затрат на ИИ с помощью Amazon Bedrock Projects

Создание text-to-SQL решения с использованием Amazon Bedrock