論文検索 新着 人気
毎日更新

タスクシフト下におけるベルマンアライメントを用いた楽観的転移学習

要約

本研究は、関連するソースタスクの経験を利用するオンライン転移強化学習において、ベルマン回帰ターゲットに基づく新しい転移手法を提案する。従来の報酬や遷移に基づく類似性定義の限界を克服するため、1ステップのベルマンアライメントを導入し、RWTという補正手法を開発した。これにより、ソースデータの統計的に妥当な再利用が可能となり、リグレットの削減を実現している。


全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

Related

次に読む