本研究は、関連するソースタスクの経験を利用するオンライン転移強化学習において、ベルマン回帰ターゲットに基づく新しい転移手法を提案する。従来の報酬や遷移に基づく類似性定義の限界を克服するため、1ステップのベルマンアライメントを導入し、RWTという補正手法を開発した。これにより、ソースデータの統計的に妥当な再利用が可能となり、リグレットの削減を実現している。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related