AI研究 2026-01-29 タグ: cs.LG, cs.AI

ドリフトするMDPの幾何学：経路積分による安定性証明

要約

現実の強化学習環境は非定常であり、報酬やダイナミクスが変動する。本研究は、環境の変化を微分可能なホモトピー経路としてモデル化し、幾何学的視点から分析する。これにより、累積ドリフトや加速、アクションギャップによる非滑らかさといった複雑さの指標を導出し、これに基づき学習強度を適応させるHT-RLおよびHT-MCTS手法を提案する。

全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

ドリフトするMDPの幾何学：経路積分による安定性証明

要約

全文は有料プラン限定です

深掘りチャットで“理解の履歴”を残す

次に読む