論文検索 新着 人気
毎日更新

GAVEL:アクティベーション監視を通じたルールベースの安全性に向けて

要約

大規模言語モデルの有害な振る舞いを防ぐため、内部の「アクティベーション」を監視する新手法GAVELが提案された。アクティベーションを「脅迫」や「支払い処理」といった解釈可能な要素に分解し、それらを組み合わせたルールで監視を行う。これにより、再学習なしで高精度かつ柔軟な安全対策が可能となる。


全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

Related

次に読む