あなたは「一発で良い答え」を求めるのに、学習中のLLMはなぜ“やり取り”に頼りがちなのでしょうか? 実は、RLの学習信号は「正解/不正解」の1ビットに近く、豊かな改善の手がかりを捨てている可能性があります。
LLMのRL後学習がうまくいく背景には、ある“極端さ”がある、と論文は言います。 それは、ロールアウトごとに得られる情報が、二値の報酬や好みラベルという「ほぼ1ビット」だという点です。見方を変えると、学習は進むのに、なぜ良くなったか・どこを直すべきかの「説明」がほとんど渡されていない、という不思議さが残ります。
論文はまず、マルチターンの枠組みとして RL from Text Feedback(RLTF) を定式化します。 ポイントはシンプルで、学習中はテキストフィードバックがあるが、推論時はない。だからモデルは、改善の手がかりを「次ターンの入力」ではなく「パラメータ側」に取り込まなければならない。言い換えると、“後から直す力”を“最初から出す力”へ変換することが、この設定の中心目標になります。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related