出力空間探索:凍結されたエンコーダによって定義された出力空間におけるLLM生成の標的化
OS-Searchは、LLMの生成プロセスを従来のトークン単位の探索から、固定されたエンコーダが定義する3次元の出力空間(Z空間)における終点探索へと転換する革新的な手法である。 外部ループがターゲット座標を選択し、強化学習で訓練されたポリシーがその近傍に着地する出力を生成することで、パス依存のない並列スイープやブラックボックス最適化を可能にする。 物語生成では従来のプロンプトチェイニングと比較して3.1倍の多様性を実現し、コード生成ではベイズ最適化を用いることで、モデルが学習時に知らなかった外部評価指標のスコアを向上させることに成功した。