OSGym: новый фреймворк для управления 1000+ репликами ОС

Обучение ИИ-агентов, способных использовать компьютер, открывать приложения, нажимать кнопки и писать код, является одной из самых сложных задач в современной инфраструктуре ИИ. Это не проблема данных или моделей, а проблема организации. Необходимо создать сотни, а возможно, и тысячи полных операционных систем с реальными графическими интерфейсами, которые могут одновременно выполнять настоящие программы. Каждая из них должна справляться с непредсказуемыми сбоями, и все они должны работать одновременно без чрезмерных затрат, что представляет собой значительную проблему для исследовательских лабораторий.

Фреймворк 'OSGym', разработанный командой исследователей из MIT, UIUC, CMU, USC, UVA и UC Berkeley, нацелен на решение этой проблемы. Но прежде чем углубляться в детали инфраструктуры, важно понять, что такое агент компьютерного использования. В отличие от чат-ботов, которые реагируют на текстовые команды, агент компьютерного использования наблюдает за экраном рабочего стола, решает, что делать, и выполняет действия через ввод с клавиатуры и мыши. Это как ИИ, который может управлять любым программным обеспечением так же, как это делает человек.

Для обучения таких систем требуется огромное количество данных взаимодействия, сгенерированных в реальных операционных системах, что делает процесс дорогостоящим и сложным. Одна из основных проблем заключается в том, что создание песочниц ОС в больших масштабах требует значительных ресурсов. Каждая виртуальная машина нуждается в собственном загрузочном диске, процессоре и оперативной памяти. Увеличение количества параллельных экземпляров приводит к проблемам с потреблением ресурсов, которые обычные академические бюджеты просто не могут покрыть.

OSGym решает эту проблему с помощью четырех архитектурных оптимизаций. Первая из них — децентрализованное управление состоянием ОС. Каждая реплика ОС имеет своего менеджера состояния, что предотвращает распространение сбоев между репликами. Вторая оптимизация касается аппаратной организации реплик ОС, которая позволяет снизить затраты, используя контейнеры Docker вместо полных виртуальных машин, что значительно уменьшает накладные расходы.

Третья оптимизация связана с управлением дисками с использованием техники копирования по записи, что позволяет экономить место на диске и ускорять процесс развертывания виртуальных машин. Четвертая оптимизация заключается в поддержании пула контейнеров, что позволяет повторно использовать ресурсы и предотвращать сбои при высокой нагрузке. Все эти улучшения делают OSGym эффективным инструментом для обучения ИИ-агентов, способных взаимодействовать с компьютерами.

OSGym: новый фреймворк для управления 1000+ репликами ОС

Похожие статьи

Amazon SageMaker HyperPod оптимизирует инференс для AI моделей

Оптимизированные развертывания в SageMaker JumpStart

AWS представляет фреймворк Path-to-Value для генеративного ИИ