PROTEUSは、LLMの運用者が実行時に精度目標($\tau$)を直接入力できる革新的なポリモーフィック・ルーターであり、ラグランジュ双対制御を導入することで、単一の学習済みモデルのみで多様なサービスレベル契約(SLA)に即座に対応することを可能にしました。
PROTEUSは、LLMの運用者が実行時に精度目標($\tau$)を直接入力できる革新的なポリモーフィック・ルーターであり、ラグランジュ双対制御を導入することで、単一の学習済みモデルのみで多様なサービスレベル契約(SLA)に即座に対応することを可能にしました。 従来のルーターがパラメータ調整による精度の推測を強いていたのに対し、本システムは精度目標と実際の出力の間に0.97以上の極めて高い相関を実現し、設定された精度基準を100%の確率で遵守することに成功しています。 RouterBenchおよびSPROUTを用いた広範な検証では、最高性能の固定モデルと比較して最大89.8%という劇的なコスト削減を達成しつつ、理想的な選択を行うオラクルに近い高い精度を維持できることが証明されており、ビジネス要件に応じた柔軟かつ効率的なLLM運用を実現します。
現在のLLM(大規模言語モデル)の運用環境では、顧客のティア、時間帯、クエリの重要度に応じて、コストと品質の要件が極めて多様化しています。例えば、プレミアムAPIティアに10倍の料金を支払う企業顧客は、単なる高速なレスポンスだけでなく、測定可能なほど高い品質を期待します。しかし、既存のLLMルーターは、このような品質ベースの要求に直接応えることができませんでした。従来のシステムでは、運用者は「クエリの30%をGPT-4に送る」といった設定はできても、「このワークロードで90%の精度を達成する」といった具体的な精度目標を指定することは不可能でした。 既存のモデルサービングシステムは、遅延に関するサービスレベル目標(SLO)を直接受け入れることができますが、LLMルーターにはこれまでその機能が欠けていました。従来のルーターを使用する場合、運用者はオフラインでパラメータを調整し、どのような精度が得られるかを推測せざるを得ませんでした。パラメータと結果の関係は間接的かつ非単調で、データセットに強く依存します。運用者は、不透明な設定から結果を推測するのではなく、ビジネス要件に直結する精度目標を直接指定する必要があります。…
本研究では、精度目標($\tau$)を実行時の入力として受け入れる革新的なルーターであるPROTEUS(統合SLAによる運用目標執行のための多態的ルーター)を提案します。PROTEUSの最大の特徴は、ラグランジュ双対制御を採用している点にあります。学習された双対変数($\lambda$)が訓練中の制約違反を動的に追跡し、方策ネットワークを条件付けます。これにより、ルーターは指定された$\tau$の値を、それを満たす最適なルーティング決定へと直接変換することが可能になります。 PROTEUSは「ポリモーフィック(多態的)」な性質を持っており、単一の学習済みモデルで、再学習を行うことなく全範囲の精度要求に対応します。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related