Google DeepMind Gemma Scope 2: как увидеть, о чем думает нейросеть Gemma 3

Google DeepMind выпустил Gemma Scope 2 — открытый инструмент, который позволяет заглянуть внутрь моделей Gemma 3 (от 270млн до 27млрд параметров) и увидеть, как они обрабатывают информацию на каждом слое!

Что это меняет:

Раньше мы видели только вход и выход модели.
Теперь можно отследить, какие именно "мыслительные процессы" запускаются при jailbreak, галлюцинациях или странных ответах.
Исследователи безопасности могут находить уязвимости до того, как их используют злоумышленники.

Инструмент использует разреженные автокодеры (SAE) как "микроскоп" для ИИ — они разбивают сложные внутренние активации на понятные признаки вроде "распознавание вредоносного запроса" или "проверка фактов".

Что нового в версии Scope 2:

Поддержка всех моделей Gemma 3 до 27млрд параметров
Анализ многослойных вычислений через skip- и cross-layer транскодеры
Специальные режимы для чат-моделей: анализ цепочек рассуждений и отказов
Техника Matryoshka делает признаки стабильнее и понятнее

Главное применение — безопасность ИИ. Теперь команды могут не просто блокировать плохие запросы, а понимать, ПОЧЕМУ модель иногда "сходит с ума" или слишком доверчива.

👉 Это открытый инструмент — любой исследователь может использовать его для анализа ИИ-систем. Google делает большой шаг к прозрачности в мире искусственного интеллекта!

НАВИГАЦИЯ

МЕНЮ

Google DeepMind Gemma Scope 2: как увидеть, о чем думает нейросеть Gemma 3