- 大規模推論モデルの推論時計算の拡張では、答え候補を独立にたくさん出して最後に集約する並列サンプリングの方が、前の答えを見ながら順に改善していく逐次サンプリングより強いことが知られていましたが、その理由は曖昧でした。 - この研究は AIME2025 と LiveCodeBench v5、さらに Qwen3・DeepSeek-R1 distilled・Gemini 2.5 をまたいで比較し、差の主因は集約や長い文脈そのものではなく、逐次方式で解探索が狭まりやすいことだと示しています。 - 特に逐次サンプリングでは前の解を強く参照する誘導ヘッドが現れ、似た解を繰り返しやすくなると分析しています。言い換えると、逐次改善が弱いのではなく、「前の答えに引きずられて別解を試せなくなる」ことが効いている、という結論です。
推論時計算を増やして LLM の性能を伸ばす方法は、いまや数学問題やコード生成では当たり前になっています。ただ、推論量を増やすやり方には少なくとも二つあります。ひとつは複数の解を独立に生成して最後に多数決や上位候補選択で選ぶ並列サンプリング、もうひとつは一度出した答えを踏まえて「もう一度解いて」「前の答えの問題点を直して」と順に改善させる逐次サンプリングです。
提案の本体は新しいデコード手法ではなく、並列サンプリングと逐次サンプリングの性能差を厳密に切り分ける実験設計です。著者たちは逐次サンプリングをさらに二つに分けています。ひとつは最後の解だけを引き継ぐマルコフ型逐次サンプリング、もうひとつは履歴全体を抱え込む自己回帰型逐次サンプリングです。これにより、逐次改善そのものの問題と、履歴の持ち方の問題を分離して見られるようにしています。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related