K-Myriad: 教師なし並列エージェントによる強化学習のジャンプスタート
K-Myriadは、大規模な並列環境において複数のエージェントを教師なしで学習させ、集合的な状態エントロピーを最大化することで強化学習の初期探索を効率化する新しい手法である。共有のネットワーク基盤と独立した複数の政策ヘッドを組み合わせたスケーラブルなアーキテクチャにより、高次元の連続制御タスクにおいて多様な専門的探索戦略を同時に構築することが可能である。事前学習された多様な政策集団を初期値として利用することで、未知の報酬タスクにおける学習効率を大幅に向上させ、ランダムな初期化や単一の汎用的政策を超える性能を発揮することを実証した。この手法は、並列計算リソースを単なる高速化の手段としてだけでなく、探索の質を向上させるための戦略的な資産として活用する道を開くものである。