Представляем Gemma Scope 2 для анализа поведения языковых моделей

51 просмотров Источник
Представляем Gemma Scope 2 для анализа поведения языковых моделей

Компания анонсировала новый набор инструментов для интерпретации языковых моделей - Gemma Scope 2. Эти инструменты помогут исследователям глубже понять внутренние процессы принятия решений в языковых моделях, которые, несмотря на свои впечатляющие способности, остаются непрозрачными.

Gemma Scope 2 поддерживает все модели Gemma 3, от 270 миллионов до 27 миллиардов параметров, и позволяет отслеживать потенциальные риски в их «мозге». Это крупнейший выпуск инструментов интерпретации от AI-лаборатории на сегодняшний день, включающий около 110 петабайт данных и обучение более 1 триллиона параметров.

С помощью Gemma Scope 2 исследователи смогут отлаживать неожиданные поведения моделей и проводить аудит AI-агентов, что ускорит разработку безопасных решений для таких проблем, как jailbreak, галлюцинации и угодничество.

Новый набор инструментов включает в себя автоэнкодеры и транскодеры, позволяя исследователям заглянуть внутрь моделей и понять, как формируются их мысли и как они связаны с поведением модели. Это важно для изучения таких аспектов, как расхождения между логикой модели и её внутренним состоянием.

Gemma Scope 2 также предлагает улучшенные инструменты для анализа сложных внутренних процессов, включая новые техники обучения, которые помогают обнаруживать более полезные концепции и устранять недостатки предыдущей версии. Инструменты анализа поведения чат-ботов помогут исследовать сложные многоступенчатые действия, такие как механизмы отказа и верность цепочки рассуждений.

Похожие статьи