LLM ルーティングの現場では、運用者が本当に指定したいのは「閾値をいくつにするか」ではなく、「最低でもこの精度は守ってほしい」という SLA です。ところが既存ルータは、精度目標を直接受け取れず、事前調整と勘に依存していました。 / PROTEUS は、精度目標 τ を実行時入力として受け取り、ラグランジュ双対制御と強化学習を使って、その τ を満たすようにクエリごとのルーティングを学習する設計です。1つの学習済み方策で τ∈[0.85, 0.95] をまたげる点が核です。 / RouterBench と SPROUT で、精度下限の順守率は 100%、τ と出力品質選好 μ の相関は 0.97〜0.98 を達成し、RouterBench では 90.1% 精度、SPROUT では 94.0% 精度を出しつつ、固定モデル比で最大 89.8% のコスト削減も示しました。
τ を実行時入力として受け取り、ラグランジュ双対制御と強化学習を使って、その τ を満たすようにクエリごとのルーティングを学習する設計です。1つの学習済み方策で τ∈[0.85, 0.95] をまたげる点が核です。τ と出力品質選好 μ の相関は 0.97〜0.98 を達成し、RouterBench では 90.1% 精度、SPROUT では 94.0% 精度を出しつつ、固定モデル比で最大 89.8% のコスト削減も示しました。既存のルータは、多くの場合、信頼度の閾値、振り分け比率、制約の重みのような間接パラメータを調整して動かします。しかし運用者が欲しいのはそうした内部パラメータではありません。実際に欲しいのは「上位ティアは 95% を切らない」「下位ティアは 85% を満たせばよい」といった品質の下限です。現行方式では、この希望を内部の閾値へ翻訳し、結果として何% の精度になるかを後から推測しなければなりません。
提案の核は、SLA 適応型の振り分けを制約付き最適化として定式化し、精度目標 τ を実行時の条件にしたことです。最適化問題としては、「コストを最小化しつつ、期待精度が τ 以上になるようにする」という形です。重要なのは、τ が学習時の固定条件ではなく、推論時にクエリと一緒に入る入力になっている点です。
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related