期待報酬の制約を伴う多目的セーフRLHFは方策と非負の双対変数の鞍点問題として書けますが、標準的な同時プライマル・デュアル更新は最終反復が振動して不安定になりやすく、学習の最後の方策をそのまま配備する運用と噛み合いにくいです。
大規模言語モデルは要約、翻訳、コード生成などの多様な言語タスクで高い有用性を示しますが、同時に望ましくない振る舞いも起こし得ます。具体的には、誤解を招く情報や不正確な情報の生成、不適切あるいは有害な内容の生成、機微情報や私的データの漏えいが懸念として挙げられます。これらの問題意識から、人間の選好に沿うようにモデルを整合化するRLHFが重要な位置を占めます。ところが実際の選好は単一の尺度ではなく、有用性に加えて簡潔さ、事実性、無害性など複数の属性を含み、しかも互いに衝突することがあります。そこで、主目的を最適化しながら安全性など別の側面を制約として明示する「制約付き(多目的)RLHF」が自然に導かれます。 一方で、制約付きRLHFをラグランジュ緩和で書くと、方策と非負のラグランジュ乗数の鞍点問題になりますが、標準的なプライマル・デュアル法には運用上の難点があります。分布としての方策を前提に凸凹構造が成り立つ場合には議論が進めやすいものの、実務では方策が大きなニューラルネットでパラメータ化され、最終反復が不安定または発散し得ます。…
提案は大きく二段構えです。第一に、制約付きRLHFで用いられてきた複数の整合化アルゴリズムを、単一の「普遍的なプライマル・デュアル枠組み」として整理します。この枠組みでは各反復が、現在の双対変数の下でラグランジアンを大きくする方策更新と、制約目的の期待報酬(制約違反の度合い)の推定に基づく双対更新に分解されます。方策更新は抽象化された部品として「PrimalOracle」にまとめられ、単発の勾配更新、有限回の内側反復、分布空間での厳密解といった違いを同じ入出力の差として表せます。双対更新側も、推定器(GradEst)で期待報酬を見積もり、非負制約を満たすよう射影しながら更新する、という共通構造で捉えられます。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related