成功した軌跡を模倣して方策を更新する「成功条件付け」は広く使われていますが、その理論的背景は不明確でした。本論文は、この手法が$\chi^2$ダイバージェンス制約付きの信頼領域最適化問題を厳密に解いていることを証明しました。これにより、方策の改善、変化の大きさ、行動の影響度が数学的に等価であることが示され、安全な改善手法であることが明らかになりました。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related