AI研究 2026-01-27 タグ: cs.AI, cs.CR, cs.LG

GAVEL：アクティベーション監視を通じたルールベースの安全性に向けて

要約

大規模言語モデルの有害な振る舞いを防ぐため、内部の「アクティベーション」を監視する新手法GAVELが提案された。アクティベーションを「脅迫」や「支払い処理」といった解釈可能な要素に分解し、それらを組み合わせたルールで監視を行う。これにより、再学習なしで高精度かつ柔軟な安全対策が可能となる。

全文は有料プランで閲覧できます。

Unlock

ログインして試す

Pro

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。