Представляем Gemma Scope 2 для анализа поведения языковых моделей
Компания анонсировала новый набор инструментов для интерпретации языковых моделей - Gemma Scope 2. Эти инструменты помогут исследователям глубже понять внутренние процессы принятия решений в языковых моделях, которые, несмотря на свои впечатляющие способности, остаются непрозрачными.
Gemma Scope 2 поддерживает все модели Gemma 3, от 270 миллионов до 27 миллиардов параметров, и позволяет отслеживать потенциальные риски в их «мозге». Это крупнейший выпуск инструментов интерпретации от AI-лаборатории на сегодняшний день, включающий около 110 петабайт данных и обучение более 1 триллиона параметров.
С помощью Gemma Scope 2 исследователи смогут отлаживать неожиданные поведения моделей и проводить аудит AI-агентов, что ускорит разработку безопасных решений для таких проблем, как jailbreak, галлюцинации и угодничество.
Новый набор инструментов включает в себя автоэнкодеры и транскодеры, позволяя исследователям заглянуть внутрь моделей и понять, как формируются их мысли и как они связаны с поведением модели. Это важно для изучения таких аспектов, как расхождения между логикой модели и её внутренним состоянием.
Gemma Scope 2 также предлагает улучшенные инструменты для анализа сложных внутренних процессов, включая новые техники обучения, которые помогают обнаруживать более полезные концепции и устранять недостатки предыдущей версии. Инструменты анализа поведения чат-ботов помогут исследовать сложные многоступенчатые действия, такие как механизмы отказа и верность цепочки рассуждений.
Обзор достижений Google в 2025 году: прорывы в исследованиях
Google DeepMind поддерживает миссию Genesis для ускорения научных открытий
Похожие статьи
Обновления Google AI в марте 2026 года
Google анонсировал обновления AI в марте 2026 года, включая улучшения Gemini и Google Maps.
Объявляем главные новости ИИ за февраль
Google представил ключевые обновления в области ИИ, включая новые инструменты и партнерства на AI Impact Summit в Индии.
Gemini в Google Sheets демонстрирует выдающиеся результаты
Gemini в Google Sheets достигла выдающихся результатов в редактировании таблиц.