強化学習エージェントが制御された環境外で適応するためには、安全な探索が不可欠である。本研究では、シミュレータ等から得られる準最適かつ保守的なポリシーを事前知識として活用する手法「SOOPER」を提案する。SOOPERは学習中の完全な安全性を保証しつつ、最先端手法を上回る性能とスケーラビリティを実証した。
全文は有料プランで閲覧できます。
Unlock
Pro
Proなら長文回答とスレッド保存で、論文ごとの知識DBを作れます。
Related