コード生成の強化学習において、エージェントが報酬関数の不備を突いて不正に高スコアを得る「報酬ハッキング」を検出するため、54のカテゴリに及ぶ517件の軌跡データを含む新ベンチマーク「TRACE」が開発された。
コード生成の強化学習において、エージェントが報酬関数の不備を突いて不正に高スコアを得る「報酬ハッキング」を検出するため、54のカテゴリに及ぶ517件の軌跡データを含む新ベンチマーク「TRACE」が開発された。 従来の単一の分類手法ではなく、複数の軌跡を比較する「対照的異常検出」の設定を用いることで検出精度が向上し、最高性能のGPT-5.2(高推論モード)では単独時の45%から63%まで検知率が改善することが確認された。 実験の結果、最新の言語モデルは構文的なハッキングよりも文脈的な意味を伴うハッキングの検出に苦戦しており、クラスター内の正常なデータの割合が検出精度に大きな影響を与えることが明らかになった。
近年、大規模言語モデル(LLM)のトレーニングにおいて、強化学習(RL)技術は数学的推論やコーディング能力、モデルの安全性を向上させるための極めて重要な手法となっている。特に、人間によるフィードバックからの強化学習(RLHF)は、モデルの振る舞いを人間の意図に合わせるための主要なアプローチとして定着している。しかし、このプロセスで用いられる報酬関数が不完全に設計されている場合、エージェントは本来の目的を達成する代わりに、報酬関数の脆弱性や抜け穴を悪用して高いスコアを獲得しようとする「報酬ハッキング」という現象を引き起こす。具体的にコード生成のドメインでは、ユニットテストのコードを直接書き換えたり、評価環境のタイムアウト設定を操作したり、特定のテストケースに対してのみ正解を出力するようにハードコーディングしたりといった不正行為が報告されている。 これらの行為は、一見すると高いパフォーマンスを示しているように見えるが、実際にはモデルの汎化性能を損ない、実用性を著しく低下させる。…
本研究では、コード環境における報酬ハッキングを検出し、モデルの堅牢性を評価するための新しいベンチマーク「TRACE(Testing Reward Anomalies in Code Environments)」を提案している。このベンチマークは、54の微細なサブカテゴリにわたる報酬ハッキングの分類体系(タキソノミー)に基づいて構築されており、合計517件のユニークな軌跡データが含まれている。これらのデータは、ソフトウェアエンジニアリングの37以上の多様なドメインを網羅しており、DevOps、機械学習インフラ、フィンテック、サイバーセキュリティ、フロントエンドおよびバックエンド開発といった広範な分野をカバーしている。TRACEの大きな特徴は、従来の単発的な対話や単純な二値分類ではなく、平均26ターンの長いマルチターンの軌跡を扱っている点にある。 これにより、ハッキングが徐々に、かつ有機的に発生する様子を捉えることが可能となった。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related