大規模マルチエージェントシステムにおいて、従来の平均場制御が前提としていた「全エージェント間の一様な相互作用」という制約を打破し、現実的な希薄グラフ上での制御を可能にする理論的枠組み「Sparse-MFC」が提案されました。
大規模マルチエージェントシステムにおいて、従来の平均場制御が前提としていた「全エージェント間の一様な相互作用」という制約を打破し、現実的な希薄グラフ上での制御を可能にする理論的枠組み「Sparse-MFC」が提案されました。 システムの状態を個々のエージェントの周囲の構造と状態を統合した「装飾された根付き近傍」の確率分布として再定義し、有限時間問題における最適方策が残り時間に応じた範囲の局所情報のみに依存するという「ホライゾン依存の局所性」を数学的に証明しています。 この理論は、グラフニューラルネットワーク(GNN)を用いた強化学習アルゴリズムの正当性を裏付けるものであり、エージェント数が無限大に向かう極限において、提案手法が有限システムの最適値へ収束することを理論と実験の両面で明らかにしました。
大規模なマルチエージェント強化学習(MARL)において、エージェントの数が増加するにつれて状態空間が指数関数的に増大する「次元の呪い」は、計算効率と学習の収束性を著しく阻害する深刻な課題です。この問題を解決するための有力なアプローチとして、エージェント数が無限大の極限を想定する平均場制御(MFC)の研究が長年進められてきました。従来の平均場制御理論では、すべてのエージェントが互いに交換可能であり、システム全体の状態分布という単一の統計量を通じて相互作用するという「全結合グラフ」のような密な構造を前提としています。しかし、現実世界の多くのシステム、例えばソーシャルネットワーク、電力網、生物の群れ、あるいはロボットネットワークなどは、個々のエージェントが特定の近傍とのみ相互作用する「希薄なグラフ」の構造を持っています。 希薄なグラフにおいては、各エージェントが置かれた局所的な環境は一様ではなく、それぞれが異なる接続構造や周囲の状態を持つため、従来の平均場理論が依拠していた対称性が崩壊してしまいます。…
本研究の核心的な提案は、平均場制御の対象となる「システムの状態」の定義を根本的に拡張したことにあります。従来のようにエージェントの状態空間上の確率尺度を追跡するのではなく、「装飾された根付き近傍(decorated rooted neighborhoods)」の空間上の確率尺度としてシステム状態を再定義しました。ここで「装飾」とは、グラフの各ノードにそのエージェントの現在の状態が割り当てられていることを指します。この新しい定義により、グラフの局所的な構造の異質性と、そこに付随するエージェントの状態の両方を同時に平均場として扱うことが可能になりました。これにより、ネットワークの形状そのものが時間とともに変化したり、エージェントごとに異なる接続数を持っていたりする場合でも、一貫した理論枠組みで制御を記述できます。…
続きはログイン/プランで閲覧できます。
続きを読む
無料プランで全文は月 2 本まで読めます。
Related