標準的なDeep Q-Network (DQN) が苦手とするスパース報酬環境において、学習効率を向上させる新たな手法DISRCが提案されました。生物学的メカニズムに着想を得て、潜在空間における「驚き(Surprise)」の度合いに応じてQ学習の更新を動的に調整します。実験では、探索の初期段階での柔軟性と収束後の安定性の両立に成功しました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related