継続更新

CASTER: タスク効率的なルーティングのためのコンテキスト認識戦略によるマルチエージェント・オーケストレーションにおけるコストパフォーマンスの壁の打破

マルチエージェント・システム(MAS)において、すべてのタスクに高性能なモデルを割り当てると膨大なコストが発生し、逆に安価なモデルでは論理的な脆弱性によりタスク全体が失敗するという「コストパフォーマンスのパラドックス」を解決するため、軽量なニューラルルーターであるCASTERが提案されました。

CASTER: タスク効率的なルーティングのためのコンテキスト認識戦略によるマルチエージェント・オーケストレーションにおけるコストパフォーマンスの壁の打破 の図解
論文図解

TL;DR(結論)

マルチエージェント・システム(MAS)において、すべてのタスクに高性能なモデルを割り当てると膨大なコストが発生し、逆に安価なモデルでは論理的な脆弱性によりタスク全体が失敗するという「コストパフォーマンスのパラドックス」を解決するため、軽量なニューラルルーターであるCASTERが提案されました。 CASTERは、タスクのセマンティックな埋め込み表現と、エージェントの役割やコンテキスト長などの構造的なメタ特徴量を組み合わせた「二重分岐特徴融合ネットワーク」を採用し、各ステップで最適なモデルを動的に選択することで、推論コストを大幅に削減しながら高い成功率を維持します。 ソフトウェア工学、データ分析、科学的発見、サイバーセキュリティの4つの領域における検証の結果、CASTERは強力なモデルのみを使用するベースラインと比較して推論コストを最大72.4%削減し、一部の領域では強力なモデルを凌駕する性能を達成することが確認されました。

なぜこの問題か

大規模言語モデル(LLM)の進化に伴い、複雑な目的を複数のサブタスクに分解して解決するマルチエージェント・システム(MAS)が、ソフトウェア工学や科学的発見などの長期的な推論が必要な分野で注目を集めています。しかし、MASの規模が拡大するにつれて、指数関数的に蓄積されるコンテキストと、それに伴う計算コストの増大という「コストパフォーマンスのパラドックス」が大きな障壁となっています。産業界でMASを採用する際、すべてのサブタスクにGPT-4oのような強力なモデルを使用すると、法外なコストと遅延が発生します。一方で、コストを抑えるために安価で性能の低いモデルに切り替えると、論理的な脆弱性が露呈し、上流のステップで発生したわずかなエラーが連鎖して最終的なタスクの失敗を招くというリスクがあります。 既存のルーティング技術は、MASの動的な性質に対応するには不十分です。例えば、クエリの長さなどの静的な指標に依存するヒューリスティックなアプローチでは、短くても高度な論理的思考を必要とするプロンプトの複雑さを捉えることができません。…

核心:何を提案したのか

本研究では、パフォーマンスとコストの間の硬直したトレードオフを打破するために設計された、軽量なニューラルモジュールであるCASTER(Context-Aware Strategy for Task Efficient Routing)を提案しています。CASTERは、静的な構成とは異なり、タスクのセマンティクス、エージェントの役割、および進化するコンテキストを最も費用対効果の高いモデルにマッピングする動的な意思決定者として機能します。このモジュールは、エキスパートレベルの推論の必要性を予測し、単純なサブタスクを安価なモデルに振り分ける一方で、重要な推論のボトルネックとなる箇所には強力なモデルを予約します。…

続きはログイン/プランで閲覧できます。

続きを読む

ログインで全文を月 2 本まで無料で読めます

ログインして続きを読む

無料プランで全文は月 2 本まで読めます。

Related

次に読む