Google DeepMind Gemma Scope 2: как увидеть, о чем думает нейросеть Gemma 3
Google DeepMind выпустил Gemma Scope 2 — открытый инструмент, который позволяет заглянуть внутрь моделей Gemma 3 (от 270млн до 27млрд параметров) и увидеть, как они обрабатывают информацию на каждом слое!
Что это меняет:
- Раньше мы видели только вход и выход модели.
- Теперь можно отследить, какие именно "мыслительные процессы" запускаются при jailbreak, галлюцинациях или странных ответах.
- Исследователи безопасности могут находить уязвимости до того, как их используют злоумышленники.
Инструмент использует разреженные автокодеры (SAE) как "микроскоп" для ИИ — они разбивают сложные внутренние активации на понятные признаки вроде "распознавание вредоносного запроса" или "проверка фактов".
Что нового в версии Scope 2:
- Поддержка всех моделей Gemma 3 до 27млрд параметров
- Анализ многослойных вычислений через skip- и cross-layer транскодеры
- Специальные режимы для чат-моделей: анализ цепочек рассуждений и отказов
- Техника Matryoshka делает признаки стабильнее и понятнее
Главное применение — безопасность ИИ. Теперь команды могут не просто блокировать плохие запросы, а понимать, ПОЧЕМУ модель иногда "сходит с ума" или слишком доверчива.
👉 Это открытый инструмент — любой исследователь может использовать его для анализа ИИ-систем. Google делает большой шаг к прозрачности в мире искусственного интеллекта!
Авторизуйтесь, чтобы оставить комментарий.
Нет комментариев.