現実の強化学習環境は非定常であり、報酬やダイナミクスが変動する。本研究は、環境の変化を微分可能なホモトピー経路としてモデル化し、幾何学的視点から分析する。これにより、累積ドリフトや加速、アクションギャップによる非滑らかさといった複雑さの指標を導出し、これに基づき学習強度を適応させるHT-RLおよびHT-MCTS手法を提案する。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related