AI研究 2026-01-26 タグ: cs.AI, cs.LG, eess.SY, stat.ML

方策改善としての成功条件付け：成功の模倣によって解かれる最適化問題

要約

成功した軌跡を模倣して方策を更新する「成功条件付け」は広く使われていますが、その理論的背景は不明確でした。本論文は、この手法が$\chi^2$ダイバージェンス制約付きの信頼領域最適化問題を厳密に解いていることを証明しました。これにより、方策の改善、変化の大きさ、行動の影響度が数学的に等価であることが示され、安全な改善手法であることが明らかになりました。

全文は有料プランで閲覧できます。

Unlock

全文は有料プラン限定です

ログインして試す

Pro

深掘りチャットで“理解の履歴”を残す

プランを見る

Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。

方策改善としての成功条件付け：成功の模倣によって解かれる最適化問題

要約

全文は有料プラン限定です

深掘りチャットで“理解の履歴”を残す

次に読む