GRPO はグループ平均との差で学習を進めますが、同じグループ内に自然に生まれる正解トレースと誤答トレースの対比を、そのままでは十分に使えていません。BICC と RCC はこの比較情報を直接学習に取り込み、追加サンプリングや補助モデルなしで推論精度と学習安定性を底上げする提案です。
GRPO は、同じ問いに対して複数の応答候補を出し、そのグループ平均との差からアドバンテージを作る手法です。PPO のようなクリティック学習を省きながら、検証可能な報酬を持つタスクで高い性能を出せるため、数学推論やコード生成のような reasoning 領域ではかなり重要な位置を占めています。軽い実装で伸びやすいので、実務でも研究でも採用しやすいのが強みです。
提案の核は二段構えです。第一に、標準的な GRPO を対照学習的に読み替え、正解サンプルと誤答サンプルの policy ratio のマージンを広げる目的として再定式化したことです。これにより、GRPO は単なる「平均との差の最適化」ではなく、「成功側と失敗側の境界を押し広げる最適化」として理解できるようになります。この再定式化があるからこそ、後段の改良が場当たりではなく、目的関数の構造に沿ったものになります。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related