マルチターンでコードを書き直すLLMは、どうすれば「強く」かつ「安く」育てられる? オンラインRLが強いのは分かる。でも高コストで不安定——そこで発想を変える。 この記事では、COBALTが“マルチターン”を“一手ずつ”に分解して橋をかけた狙いと手触りを追う。
LLMに「コードを書いて、テストで直して、また直して……」をやらせる。いわゆるマルチターンのコード生成は、現実の開発に近いぶん、学習も評価も難しくなります。 一回で正解を出すより、“途中で外しても戻れる”ことや、“フィードバックをどう解釈して次の一手を選ぶか”が前面に出てくるため、単純な生成能力だけでは語りにくい領域になります。
論文が提案するのは COBALT(contextual bandit learning with offline trajectories) です。狙いは明快で、オンラインとオフラインのRLの「良いところ」を同時に引き出す、とされています。 ここでの肝は、オンラインとオフラインを“混ぜる”というより、両者の境界にあったボトルネック(高コスト・不安定、分布ずれ・探索不足)を、別の切り方で迂回する点にあります。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related