GreenServ:マルチモデルLLM推論のためのエネルギー効率に優れたコンテキスト認識型動的ルーティング
GreenServは、大規模言語モデル(LLM)の推論における膨大なエネルギー消費を削減するために開発された、動的でコンテキストを認識するルーティングフレームワークである。各クエリからタスクの種類や意味的クラスタ、テキストの複雑性などの軽量な特徴を抽出し、文脈付き多腕バンディット(MAB)アルゴリズムを用いて、精度とエネルギー効率のバランスが最も優れたモデルを複数の候補から自動的に選択する。 このシステムは、従来の静的なモデル選択とは異なり、実際の運用を通じてモデルの性能を学習し続けるオンライン学習機能を備えている。これにより、事前の膨大なキャリブレーションを必要とせず、新しいモデルが追加された際にも即座に最適なルーティング戦略に組み込むことが可能となっている。 実験の結果、ランダムなルーティングと比較して精度を22%向上させつつ、累積エネルギー消費を31%削減することに成功した。また、推論時のオーバーヘッドは極めて小さく、実用的な遅延制約を満たしながら、持続可能なAI運用のための高度なトレードオフ制御を実現している。