Создание мини-компьютера внутри трансформера для выполнения программ
В недавнем проекте исследователи разработали концепцию, позволяющую создавать мини-компьютер внутри трансформера, компилируя простую программу непосредственно в веса модели. Эта идея заключается в том, чтобы не полагаться на обучение весов на основе данных, а вместо этого аналитически строить их, чтобы модель могла выполнять граф вычислений напрямую.
В рамках данного подхода трансформер рассматривается как программируемая машина, где расписание определяет, какие промежуточные значения должны вычисляться на каждом шаге. Скрытые размеры назначаются переменным, подобно регистраторам в мини-компьютере, а механизмы внимания настраиваются для выполнения операций поиска и маршрутизации. Таким образом, трансформер начинает напоминать небольшой компилированный компьютер, построенный из блоков внимания и линейных проекций.
Одним из ключевых аспектов этой работы является возможность создания внутреннего детерминированного режима работы, который позволяет модели выполнять точные вычисления, не покидая своего цикла выполнения. В одном режиме модель функционирует как гибкая языковая система, а в другом — как компилированная машина, надежно выполняющая фиксированный граф вычислений.
Сравнение с работой Percepta, которая также занимается выполнением программ внутри трансформеров, показывает, что в данном случае создается более специализированная структура. Вместо того чтобы внедрять интерпретатор в веса, здесь компилируется целевая программа, что делает модель менее универсальной, но более простой и понятной для понимания детерминированных вычислений.
В дальнейшем автор демонстрирует этот подход на примере небольшой программы, которая включает операции поиска, локальных вычислений и вывода. Программа, использующая токен ввода, эволюционирует с каждым шагом, обновляя состояние и выдавая результат.
MiniMax представляет MMX-CLI: интерфейс командной строки для ИИ-агентов
Усложнение управления ИТ для предприятий с ростом AI на краю сети
Похожие статьи
Применение Claude Code для нетехнических задач на компьютере
Claude Code помогает эффективно решать нетехнические задачи на компьютере.
Эффективные функции вознаграждения для настройки Amazon Nova с AWS Lambda
Как эффективно использовать AWS Lambda для настройки моделей Amazon Nova.
Модель не завершена: как понять и исправить дрейф модели
Дрейф модели — это ухудшение производительности предсказательных моделей со временем. Узнайте, как его обнаружить и исправить.