強化学習の基本タスクであるオフポリシー評価(OPE)において、線形実現可能性のみを仮定する最小設定下での最適なカバレッジ(網羅性)定義を提案した研究。正準的なアルゴリズムであるLSTDQの新しい有限標本解析を通じ、「特徴ダイナミクスカバレッジ」という概念を導入し、既存設定との統一的な理解を実現した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related