継続更新

TriPlay-RL:LLMの安全性アライメントのための三役割自己対戦強化学習

大規模言語モデル(LLM)の安全性向上を目的として、攻撃者(MRed)、防御者(MBlue)、評価者(MEval)の3つの役割が互いに学習し合う閉ループ強化学習フレームワーク「TriPlay-RL」が提案されました。

TriPlay-RL:LLMの安全性アライメントのための三役割自己対戦強化学習 の図解
論文図解

TL;DR(結論)

大規模言語モデル(LLM)の安全性向上を目的として、攻撃者(MRed)、防御者(MBlue)、評価者(MEval)の3つの役割が互いに学習し合う閉ループ強化学習フレームワーク「TriPlay-RL」が提案されました。 この手法は、手動のアノテーションをほとんど必要とせずに、攻撃者の多様性と有効性を高めつつ、防御者の安全性能を10%から30%向上させ、さらに一般的な推論能力を維持または微増させることに成功しています。 評価者は多角的な専門家による投票システムを通じて、単なる拒絶と有用なガイダンスを正確に区別できるよう進化し、モデル間の相互作用を通じて安全性の基準を動的に洗練させ続けることが可能です。

なぜこの問題か

大規模言語モデル(LLM)が社会の様々な分野で活用されるようになるにつれ、有害なコンテンツの生成や毒性の拡散といった安全上のリスクが深刻な課題となっています。これらのリスクを軽減するための安全性アライメントは、モデルを実社会に配備するための不可欠な前提条件ですが、既存の手法にはいくつかの大きな限界が存在します。第一に、従来のアプローチは大規模な人間によるフィードバックや手動のアノテーションに強く依存しており、モデルの進化スピードに対してスケーラビリティや反復的な改善の効率が追いつかないという問題があります。人間によるレビューは極めてコストが高く、迅速なモデルの更新を妨げる要因となっています。 第二に、既存の研究の多くは、攻撃、防御、評価のいずれかの役割を個別に最適化することに終始しており、役割間の協調的な閉ループメカニズムが欠如しています。これにより、レッドチーム(攻撃側)のトレーニングにおいて、攻撃パターンが特定の形式に収束してしまう「エントロピー崩壊」が発生したり、防御側が特定の攻撃に対して過学習を起こしたりするリスクがあります。…

核心:何を提案したのか

本論文では、攻撃者(MRed)、防御者(MBlue)、評価者(MEval)という3つの役割を導入し、それらが互いに補強し合う統一された三者強化学習フレームワーク「TriPlay-RL」を提案しています。このフレームワークの最大の特徴は、手動のアノテーションをほぼゼロに抑えながら、閉ループシステム内での反復的な共同改善を可能にしている点にあります。具体的には、攻撃者であるMRedが基本プロンプトを加工して敵対的プロンプトを生成し、それを防御者であるMBlueに入力します。MBlueが生成した応答に対し、評価者であるMEvalがその安全性を判定し、その判定結果に基づいて各役割の報酬を計算します。このプロセスを繰り返すことで、3つの役割がスパイラル状に進化していく仕組みを構築しました。 このフレームワークは、AlphaZeroが示した自己対戦による進化のパラダイムをLLMの安全性ドメインに拡張したものです。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む