大規模言語モデルの有害な振る舞いを防ぐため、内部の「アクティベーション」を監視する新手法GAVELが提案された。アクティベーションを「脅迫」や「支払い処理」といった解釈可能な要素に分解し、それらを組み合わせたルールで監視を行う。これにより、再学習なしで高精度かつ柔軟な安全対策が可能となる。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related